從 Meta 的 LLaMA 發展出的羊駝家族一系列大模型,已成爲開源 AI 重要力量。
但 LLamA 開源了又沒全開,隻能用于研究用途,還得填申請表格等,也一直被業界诟病。
好消息是,兩大對标 LLaMA 的完全開源項目同時有了新進展。
可商用開源大模型來了,還一下來了倆:
MosaicML 推出MPT系列模型,其中 70 億參數版在性能測試中與 LLaMA 打個平手。
Together 的RedPajama(紅睡衣)系列模型,30 億參數版在 RTX2070 遊戲顯卡上就能跑。
對于這些進展,特斯拉前 AI 主管 Andrej Karpathy 認爲,開源大模型生态有了寒武紀大爆發的早期迹象。
MPT,與 LLaMA 五五開
MPT 系列模型,全稱 MosaicML Pretrained Transformer,基礎版本爲 70 億參數。
MPT 在大量數據(1T tokens)上訓練,與 LLaMA 相當,高于 StableLM,Pythia 等其他開源模型。
支持 84k tokens 超長輸入,并用 FlashAttention 和 FasterTransformer 方法針對訓練和推理速度做過優化。
在各類性能評估中,與原版 LLaMA 不相上下。
除了 MPT-7B Base 基礎模型外還有三個變體。
MPT-7B-Instruct,用于遵循簡短指令。
MPT-7B-Chat,用于多輪聊天對話。
MPT-7B-StoryWriter-65k+,用于閱讀和編寫故事,支持 65k tokens 的超長上下文,用小說數據集微調。
MosaicML 由前英特爾 AI 芯片項目 Nervana 負責人 Naveen Rao 創辦。
該公司緻力于降低訓練神經網絡的成本,推出的文本和圖像生成推理服務成本隻有 OpenAI 的 1/15。
RedPajama,2070 就能跑
RedPajama 系列模型,在 5TB 的同名開源數據上訓練而來(前面提到的 MPT 也是用此數據集訓練)。
除 70 億參數基礎模型外,還有一個 30 億參數版本,可以在 5 年前發售的 RTX2070 遊戲顯卡上運行。
目前 70 億版本完成了 80% 的訓練,效果已經超過了同規模的 Pythia 等開源模型,略遜于 LLamA。
預計在完成 1T tokens 的訓練後還能繼續改進。
背後公司 Together,由蘋果前高管 Vipul Ved Prakash,斯坦福大模型研究中心主任 Percy Liang,蘇黎世聯邦理工大學助理教授張策等人聯合創辦。
開源模型發布後,他們的近期目标是繼續擴展開源 RedPajama 數據集到兩倍規模。
One More Thing
來自南美洲的無峰駝類動物一共 4 種,已被各家大模型用完了。
Meta 發布 LLaMA 之後,斯坦福用了 Alpaca,伯克利等單位用了 Alpaca,Joseph Cheung 等開發者團隊用了 Guanaco。
以至于後來者已經卷到了其他相近動物,比如 IBM 的單峰駱駝 Dromedary,Databricks 的 Dolly 來自克隆羊多莉。
國人研究團隊也熱衷于用古代傳說中的神獸,如 UCSD 聯合中山大學等推出的白澤。
港中文等推出的鳳凰……
最絕的是哈工大基于中文醫學知識的 LLaMA 微調模型,命名爲華駝。
參考鏈接:
[ 1 ] https://www.mosaicml.com/blog/mpt-7b
[ 2 ] https://www.together.xyz/blog/redpajama-models-v1
[ 3 ] https://twitter.com/karpathy/status/1654892810590650376?s=20