夢晨發自 凹非寺
量子位 | 公衆号 QbitAI
Llama 3 發布剛幾天,微軟就出手截胡了?
剛剛發布的Phi-3 系列小模型技術報告,引起 AI 圈熱議。
其中僅3.8B 參數的 Phi-3-mini在多項基準測試中超過了 Llama 3 8B。
爲了方便開源社區使用,還特意設計成了與 Llama 系列兼容的結構。
微軟這次打出" 手機就能直接跑的小模型 "的旗号,4bit 量化後的 phi-3-mini 在 iPhone 14 pro 和 iPhone 15 使用的蘋果 A16 芯片上跑到每秒 12 token。
這意味着,現在手機上能本地運行的最佳開源模型,已經做到 ChatGPT 水平。
在技術報告中還玩了一把花活,讓 phi-3-mini 自己解釋爲什麽構建小到手機能跑的模型很令人驚歎。
除了 mini 杯之外,小杯中杯也一并發布:
Phi-3-small,7B 參數,爲支持多語言換用了 tiktoken 分詞器,并額外增加 10% 多語種數據。
Phi-3-medium,14B 參數,在更多數據上訓練,多數測試中已超越 GPT-3.5 和 Mixtral 8x7b MoE。
(大杯他們目前不打算做)
作者陣容一看也不簡單,一眼掃過去 MSRA 和 MSR 雷蒙德團隊都投入了不少人。
那麽,Phi-3 系列到底有什麽獨特之處呢?
根據技術報告中披露,其核心秘訣就在于數據。
去年團隊就發現,單純堆砌參數量并不是提升模型性能的唯一路徑。
反而是精心設計訓練數據,尤其是利用大語言模型本身去生成合成數據,配合嚴格過濾的高質量數據,反而能讓中小模型的能力大幅躍升。
也就是訓練階段隻接觸教科書級别的高質量數據,Textbooks are all you need。
Phi-3 也延續了這一思路,這次他們更是下了血本 :
投喂了多達 3.3 萬億 token 的訓練數據(medium 中杯是 4.8 萬億)
大幅強化了數據的 " 教育水平 " 過濾
更多樣化的合成數據,涵蓋邏輯推理、知識問答等多種技能
獨特的指令微調和 RLHF 訓練,大幅提升對話和安全性
舉個例子,比如某一天足球比賽的結果可能對于大模型是良好的訓練數據,但微軟團隊删除了這些加強知識的數據,留下更多能提高模型推理能力的數據。
這樣一來,對比 Llama-2 系列,就可以用更小的參數獲得更高的 MMLU 測試分數了。
不過小模型畢竟是小模型,也不可避免存在一些弱點。
微軟透露,模型本身參數中沒能力存儲太多事實和知識,這一點也可以從 TriviaQA 測試分數低看出來。
緩解辦法就是聯網接入搜索引擎增強。
總之,微軟研究院團隊是鐵了心了要在小模型 + 數據工程這條路上走下去,未來還打算繼續增強小模型的多語言能力、安全性等指标。
對于開源小模型超過 ChatGPT 這回事,不少網友都認爲壓力現在給到 OpenAI 這邊,需要趕快推出 GPT-3.5 的繼任者了。
參考鏈接:
[ 1 ] https://arxiv.org/abs/2404.14219
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~