悄無聲息,羊駝家族 " 最強版 " 來了!
與 GPT-4 持平,上下文長度達 3.2 萬 token 的 LLaMA 2 Long,正式登場。
在性能上全面超越 LLaMA 2。
和競争對手相比,在指令微調 MMLU ( 5-shot ) 等測試集上,表現超過 ChatGPT。
在人類評估(human evaluation)上甚至優于 10 萬 token 的 Claude 2,這個話題還在 Reddit 上引發了讨論。
要知道,這些對比版本中,LLaMA 2 Long 使用的最大版本也隻有 70B,遠小于其他大模型。
這讓人不禁感慨:Meta 确實還是有兩下子的。
也有人覺得,這才是最近 Meta 發布會的最大新聞啊,比 Meta 版 ChatGPT 要更令人興奮。
論文介紹,LLaMA 2 Long 使用了4000 億 token語料加持下,并進行位置編碼修改。
所以 LLaMA 2 Long 究竟是如何誕生的?
隻對位置編碼進行了一個非常小的改動
與 LLaMA 2 相比,LLaMA 2 Long 的變化并不多。
一是訓練參數上,采用了高達 4000 億 token的數據源。
——相反,原始 LLaMA 2 包含多個變體,但最多的版本也隻有 700 億。
二是架構上,與 LLaMA 2 保持不變,但對位置編碼進行了一個非常小的必要修改,以此完成高達 3.2 億 token 的上下文窗口支持。
在 LLaMA 2 中,它的位置編碼采用的是旋轉編碼 RoPE 方法。
它是目前大模型中應用最廣的一種相對位置編碼,通過旋轉矩陣來實現位置編碼的外推。
本質上來說,RoPE 就是将表示單詞、數字等信息的 token embeddings 映射到 3D 圖表上,給出它們相對于其他 token 的位置——即使在旋轉時也如此。
這就能夠使模型産生準确且有效的響應,并且比其他方法需要的信息更少,因此占用的計算存儲也更小。
在此,Meta 的研究人員通過對 70 億規模的 LLaMA 2 進行實驗,确定了 LLaMA 2 中的 RoPE 方法的一個關鍵限制:
即,阻止注意力模塊聚集遠處 token 的信息。
爲此,Meta 想出了一個非常簡單的破解辦法:
減少每個維度的旋轉角度。
具體而言就是将超參數 " 基頻(base frequency) b" 從 10000 增加到 500000。
這一改動立刻奏效,縮小了 RoPE 對遠端 token 的衰減效應,并且在擴展 LLAMA 的上下文長度上優于一項類似的名爲 " 位置插值 " 的方法(如下圖所示,RoPE PI,衰減效果較爲 " 隐含 ")。
Ps. 圖中 RoPE 表示基線方法,RoPE ABF 爲 Meta 此次發明的新方法,xPos 是另一種應用了該方法的旋轉編碼變體。
一個問題是,通過上面這個可視化結果,Meta 觀察到 RoPE 在長程區域出現了較大的 " 振蕩 ",這對于語言建模來說可能不是個好消息。
不過,通過報告幾種方法在長序列困惑度和 FIRST-SENTENCE-RETRIEVAL 兩個任務上的表現來看,問題不大。
而且,尤其在後者任務上,他們提出的 RoPE ABF 是唯一一個可以始終保持性能的變體。
在附錄中,Meta 還通過可視化爲螺旋圖這一非常有趣的方式,将 RoPE ABF 與 RoPE PI 的差異進行了理論分析。
結果是,與 RoPE PI 相比,RoPE ABF 的優勢主要體現在它能以更大的粒度分配嵌入向量(the embedded vectors),從而使模型更容易區分位置。
此外,他們還觀察到,嵌入向量之間的相對距離既對 RoPE PI 的關鍵參數有線性依賴性,也對 RoPE ABF 的關鍵參數也有對數依賴性。
這也就是爲什麽我們可以很容易地對基頻這一超參數 " 下手 "。
最終,LLaMA 2 Long 憑借着這一改動,達成了 3.2 萬的上下文 token,并通過長下文連續預訓練的共同作用,獲得了開頭所示的好成績:
除了全面超越 LLaMA 2、在特定任務上超越 Claude 2 和 ChatGPT,Meta 也給出了它和一些開源長下文模型的對比。
結果也相當不賴。
One More Thing
值得一提的是,這個最新的版本,是用 LLaMA2 生成的文本内容來進行訓練的。
官方會不會正式發布這一版本,現在還沒有更明确的消息,模型的網址也還沒有找到。
不過已經有人提前興奮起來了:
這對可商用微調大模型來說太有用了!
而在此之前,已經有非官方版本實現了 3.2 萬 token 上下文,也是開源可商用。
" 長頸鹿(Giraffe)" 基于 13B 版本的 LLaMA2 打造。
研究團隊提出了一種稱爲 " 截斷(truncation)" 的方法,對原始 RoPE 編碼進行變換。
llama-2-7b-32k-instruct也可以支持 3.2 萬上下文,模型規模是 7B。
論文:
https://arxiv.org/pdf/2309.16039.pdf
參考鏈接:
[ 1 ] https://venturebeat.com/ai/meta-quietly-releases-llama-2-long-ai-that-outperforms-gpt-3-5-and-claude-2-on-some-tasks/
[ 2 ] https://twitter.com/_akhaliq/status/1707569241191285207
[ 3 ] https://www.reddit.com/r/LocalLLaMA/comments/16v0onb/meta_has_released_a_new_paper_llama_2_long_beats/
[ 4 ] https://news.ycombinator.com/item?id=37698604