現在隻用 60 行代碼,就能從 0 構建 GPT 了!
想當初,前特斯拉前 AI 總監的 minGPT 和 nanoGPT 也都還要 300 行代碼。
這個 60 行代碼的 GPT 也有名字,博主将它命名爲PicoGPT。
不過和此前 minGPT 和 nanoGPT 的教程不同,今天要講的這個博主的教程,更側重于代碼實現部分,模型的權重則用已經訓練好的。
對此,博主解釋稱這篇教程的重點在于提供一個簡單且易于破解的完整技術介紹。
這對還不理解 GPT 背後概念的盆友,算是非常友好了。
還有網友稱贊,這篇博客介紹得非常清晰,第一部分尤爲如此。
這篇介紹 GPT 模型的文章太好了,它比我之前看到的介紹都要清晰,至少在第一部分讨論文本生成和取樣是這樣的。
目前,此項目在 GitHub 上标星已破百,HackerNews 上的點擊量也即将破千。
從 GPT 是什麽講起
在介紹之前,還是需要說明一下,這篇教程不是完全零門檻,需要讀者提前熟悉 Python、NumPy 以及一些基本的訓練神經網絡。
教程的重點聚焦在技術介紹上,統共有六大部分:
什麽是 GPT?
按照慣例,在正式構建 GPT 之前得先對它做一些基本介紹,教程從輸入 / 輸出、生成文本以及訓練三個部分分别來講 GPT 是如何工作的。
在這趴,博主附上代碼,甚至還用了一些比喻來讓讀者們更好地理解 GPT。
舉個栗子,在輸入這一部分,作者将句子比作一條繩子,tokenizer 則會将其分割成一小段一小段(單詞),被稱作 token。
又比如說,在生成文本這 part 介紹自動回歸時,博主直接貼上代碼:
def generate ( inputs, n_tokens_to_generate ) :
for _ in range ( n_tokens_to_generate ) : # auto-regressive decode loop
output = gpt ( inputs ) # model forward pass
next_id = np.argmax ( output [ -1 ] ) # greedy sampling
inputs = np.append ( out, [ next_id ] ) # append prediction to input
return list ( inputs [ len ( inputs ) - n_tokens_to_generate : ] ) # only return generated ids
input_ids = [ 1, 0 ] # "not" "all"
output_ids = generate ( input_ids, 3 ) # output_ids = [ 2, 4, 6 ]
output_tokens = [ vocab [ i ] for i in output_ids ] # "heroes" "wear" "capes"
在每次叠代中,它會将預測的 token 追加回輸入,這個預測未來值并将其添加回輸入的過程就是 GPT 被描述爲自動回歸的原因。
60 行代碼怎麽運行?
了解完 GPT 的基本概念之後,就直接快進到了如何在電腦上運行這個 PicoGPT。
博主先是甩出了他那隻有 60 行的代碼:
import numpy as np
def gpt2 ( inputs, wte, wpe, blocks, ln_f, n_head ) :
pass # TODO: implement this
def generate ( inputs, params, n_head, n_tokens_to_generate ) :
from tqdm import tqdm
for _ in tqdm ( range ( n_tokens_to_generate ) , "generating" ) : # auto-regressive decode loop
logits = gpt2 ( inputs, **params, n_head=n_head ) # model forward pass
next_id = np.argmax ( logits [ -1 ] ) # greedy sampling
inputs = np.append ( inputs, [ next_id ] ) # append prediction to input
return list ( inputs [ len ( inputs ) - n_tokens_to_generate : ] ) # only return generated ids
def main ( prompt: str, n_tokens_to_generate: int = 40, model_size: str = "124M", models_dir: str = "models" ) :
from utils import load_encoder_hparams_and_params
# load encoder, hparams, and params from the released open-ai gpt-2 files
encoder, hparams, params = load_encoder_hparams_and_params ( model_size, models_dir )
# encode the input string using the BPE tokenizer
input_ids = encoder.encode ( prompt )
# make sure we are not surpassing the max sequence length of our model
assert len ( input_ids ) + n_tokens_to_generate < hparams [ "n_ctx" ]
# generate output ids
output_ids = generate ( input_ids, params, hparams [ "n_head" ] , n_tokens_to_generate )
# decode the ids back into a string
output_text = encoder.decode ( output_ids )
return output_text
if name == "__main__":
import fire
fire.Fire ( main )
然後從克隆存儲庫,安裝依賴項等步驟一步步教你如何在電腦上運行 GPT。
其中,還不乏一些貼心的小 tips,比如說如果使用的是 M1 Macbook,那在運行 pip install 之前,需要将 requments.txt 中的 tensorflow 更改爲 tensorflow-macos。
此外,對于代碼的四個部分:gpt2,generate,main 以及 fire.Fire ( main ) ,博主也有做詳細解釋。
等到代碼能夠運行之後,下一步博主就準備詳細介紹編碼器、超參數(hparams)以及參數(params)這三部分了。
直接在筆記本或者 Python 會話中運行下面這個代碼:
from utils import load_encoder_hparams_and_params
encoder, hparams, params = load_encoder_hparams_and_params ( "124M", "models" )
更具體的内容這裏就不多說了,教程的鏈接已經附在文末。
一些基礎神經網絡層的介紹
這一趴涉及到的知識就更加基礎了,因爲下一趴是實際 GPT 自身的架構,所以在此之前,需要了解一些非特定于 GPT 的更基本的神經網絡層。
博主介紹了 GeLU、Softmax 函數以及 Layer Normalization 和 Linear。
GPT 架構
終于!這部分要來講 GPT 自身的架構了,博主從 transformer 的架構引入。
△transformer 架構
GPT 的架構隻使用了 transformer 中的解碼器堆棧(即圖表的右邊部分),并且其中的的 " 交叉注意 " 層也沒有用到。
△GPT 架構
随後,博主将 GPT 的架構總結成了三大部分:
文本 + 位置嵌入
變壓器解碼器堆棧
下一個 token 預測頭
并且還将這三部分用代碼展示了出來,是醬紫的:
def gpt2 ( inputs, wte, wpe, blocks, ln_f, n_head ) : # [ n_seq ] -> [ n_seq, n_vocab ]
# token + positional embeddings
x = wte [ inputs ] + wpe [ range ( len ( inputs ) ) ] # [ n_seq ] -> [ n_seq, n_embd ]
# forward pass through n_layer transformer blocks
for block in blocks:
x = transformer_block ( x, block, n_head=n_head ) # [ n_seq, n_embd ] -> [ n_seq, n_embd ]
# projection to vocab
x = layer_norm ( x, ln_f ) # [ n_seq, n_embd ] -> [ n_seq, n_embd ]
return x @ wte.T # [ n_seq, n_embd ] -> [ n_seq, n_vocab ]
再後面,就是關于這三部分的更多細節……
測試構建的 GPT
這部分将全部的代碼組合在一起,就得到了 gpt2.py,統共有 120 行代碼,删除注釋和空格的話,就是 60 行。
然後測試一下!
python gpt2.py
"Alan Turing theorized that computers would one day become"
--n_tokens_to_generate 8
結果是這樣的:
the most powerful machines on the planet.
成功了!
一些後續補充
最後一部分,博主也總結了這短短 60 行代碼的不足:非常低效!
不過他還是給出了兩個可以讓 GPT 變高效的方法:
同時地而不是順序地執行注意力計算。
實現 KV 緩存。
此外,博主還推薦了一些訓練模型、評估模型以及改進架構的方法和教程。
感興趣的話,直接戳文末鏈接~
作者介紹
Jay Mody,目前在加拿大一家 NLP 初創公司 Cohere 從事機器學習的工作,此前,他還分别在特斯拉和亞馬遜作爲軟件工程師實習過一段時間。
除了這篇教程之外,小哥的博客網站上還有更新其他文章,并且都有附代碼~
代碼傳送門:
https://github.com/jaymody/picoGPT/blob/29e78cc52b58ed2c1c483ffea2eb46ff6bdec785/gpt2_pico.py#L3-L58
教程鏈接:
https://jaykmody.com/blog/gpt-from-scratch/#putting-it-all-together