真 · 開源 GPT 模型,終于來了。
參數量級 130 億,大小比肩最近 Meta 開放的 LLaMA-13B,但從數據集、模型權重到計算優化訓練,全部開源。
最關鍵的是,可商用。
沒錯,雖然就 GPT-3 而言,之前 DeepMind、Meta 等組織陸陸續續開源過幾個模型,不過基本都是半遮半掩。
尤其最接近 GPT-3 的 Meta OPT 模型,不僅權重隻開放給研究者,而且不可商用:
這意味着之前企業就算能抄作業,抄來的也沒辦法直接用。
現在,一家名叫 Cerebras 的公司開源了這一系列 GPT 模型,業界終于有機會追趕了。
模型性能如何?
Cerebras 一共開源了 7 個 GPT 模型,參數量分别達到 1.11 億、2.56 億、5.9 億、13 億、27 億、67 億和 130 億。
據 Cerebras 公司表示,他們開放出來的模型不僅包含數據集,可用于研究也可商用,而且關鍵是預訓練模型權重開放(從下圖來看文件大小近 50G)。
基于他們公開的預訓練模型,大夥兒隻需要用少量的數據對對模型進行微調,就能構建出效果不錯的模型來。
除此之外,這次 GPT 模型的訓練還額外考慮到了計算優化訓練 (Compute-Optimal Training)。
這個方法最早由 DeepMind 在 2022 年提出,名叫 Chinchilla,它認爲大語言模型的語料數量和模型效果之間符合一個凸曲線,因此模型參數量和訓練程度成一定比例。
依據這個方法,DeepMind 認爲,包括 GPT-3 在内的超大參數 LLM 模型,有很多都是訓練不足的。
基于此,Cerebras 搞出了這一系列 GPT 模型,并将背後的流程進行了開源。
所以,Cerebras-GPT 系列模型性能如何呢?
團隊将 Cerebras-GPT 系列和 LLaMA、GPT-3 等模型的性能進行了對比。
這是包括 GPT-3、Gopher、Chinchilla 和 LLaMA 在内的其他 GPT 模型,在完成句子、問答等特定任務上表現的效果。
這是不同大小的 Cerebras-GPT 模型零次學習(0-shot)的效果:
數據對比不是特别直觀,團隊還将結果進行了可視化。
可以看出,在最終性能相差不大的情況下,Cerebras-GPT 的訓練效率要更高一些。
曾開發最大 AI 芯片
其實,Cerebras 的 " 本職 " 是一家 AI 芯片公司。
Cerebras 公司由 Sean Lie 和 Andrew Feldman 等人于 2016 年創立。
其中,Andrew Feldman 曾創建微型服務器公司 SeaMicro,并以 3.34 億美元的價格出售給 AMD。
與其他 AI 芯片公司不同,Cerebras 開發的芯片超大,像晶圓一樣(但确實是芯片):
他們當年做出來過一個名叫 " 晶圓級引擎 "(Cerebras Wafer Scale Engine,簡稱 WSE)的 AI 芯片,将邏輯運算、通訊和存儲器集成到單個矽片上,一口氣創下了4 項世界紀錄:
晶體管數量最多的運算芯片:總共包含 1.2 萬億個晶體管。雖然三星曾造出 2 萬億個晶體管的芯片,卻是用于存儲的 eUFS。
芯片面積最大:尺寸約 20 厘米 × 23 厘米,總面積 46,225 平方毫米。面積和一塊晶圓差不多。
片上緩存最大:包含 18GB 的片上 SRAM 存儲器。
運算核心最多:包含 40 萬個處理核心。
後來這個超大 WSE 又升級了二代,然後團隊基于 WSE-2 打造出了一個名叫 Cerebras CS-2 的 AI 超算。
這次的 Cerebras-GPT 系列模型,就是在這個 Cerebras CS-2 的 AI 超算中訓練出來的。對此這家公司表示:
雖然訓練這麽大體量的模型通常需要幾個月時間,但我們幾周就能搞定。
Cerebras 還表示,雖然很多硬件公司都聲稱訓練效果能接近英偉達 GPU的水平,但他們還沒看到任何一家親自推動開源 LLM 的硬件公司,這勢必不利于開源 LLM 的發展。
這波啊,這波 Cerebras 格局大了(手動狗頭)
模型地址:
https://huggingface.co/cerebras/Cerebras-GPT-13B
參考鏈接:
https://www.cerebras.net/blog/cerebras-gpt-a-family-of-open-compute-efficient-large-language-models/