AI 模型軍備競賽風起雲湧,各家大模型打得火熱的同時,小模型競争開辟出新戰場。
本周多家公司在 " 小模型 " 方面開疆拓土,試圖證明其模型可以事半功倍。周一,法國初創公司 MistralAI 公布的開源模型 Mixtral 8x7B 引起轟動,該模型不僅性能比肩 GPT-3.5,另一大優勢是規模小到足以在一台電腦上運行。
周二,微軟亮出了小模型大招,發布 27 億參數規模的小語言模型 Phi-2,在部分基準測試中超過谷歌的 Gemini Nano 2,可以在筆記本電腦、手機等移動設備上運行。
毫無疑問,規模較小的模型可以降低了大規模運行人工智能應用的成本,同時極大地拓寬了生成式 AI 技術的應用範圍。
此外,事關模型能力強大與否的關鍵——強化學習(RL)技術最新的優化進展也引起業界的關注。
" 小模型 " 開辟新戰場
MistralAI 的小模型 Mixtral 8x7B 爲開源模型,其規模參數相對較小,而能力卻能達到 GPT-3.5 的水平,迅速引起了業内研究人員的關注。
Mixtral 8x7B 之所以叫 Mixtral 8x7B,是因爲它屬于稀疏模型,将各種爲處理特定任務而訓練的較小模型組合在一起,從而提高了運行效率。
性能方面,Mixtral 表現優于 Llama 2 70B,推理速度提高了整整 6 倍;在大多數标準基準測試上與 GPT-3.5 打平,甚至略勝一籌。
成本方面,由于 Mixtral 的參數較小,所以其成本也更低。與 Llama 2 相比,Mixtral 8x7B 表現出自己高能效的優勢。
值得一提的是,MistralAI 剛剛完成 4.15 億美元融資,最新估值已經沖破 20 億美元,在短短 6 個月中增長了 7 倍多。
本周另一家登場的小模型是微軟自制模型 Phi-2,Phi-2 的參數隻有 27 億,小到足以在手機上運行。該模型在精心挑選的數據集上進行了訓練,數據集的質量足夠高,即使手機的計算能力有限,也能确保模型生成準确的結果。
從性能表現看,Phi-2 在 Big Bench Hard(BBH)、常識推理、語言理解、數學和編碼基準測試中,其平均性能得分已經超過 70 億、130 億參數規模的 Mistral 和 Llama 2,在部分基準測試中超過谷歌的 Gemini Nano 2。
目前微軟正發力小模型的布局,分析指出,微軟與 OpenAI 的緊密合作,使得 GPT 模型的表現在大模型市場一騎絕塵,再加上微軟參數規模更小的 Phi 系列,能進一步搶占開源模型長尾市場。
模型能力強大的關鍵:強化學習技術
AI 領域的另一大進展則是強化學習技術的優化,強化學習是一種基于 " 獎勵期望行爲 " 和 " 懲罰不期望行爲 " 的機器學習訓練方法。許多人猜測,OpenAI 的模型之所以表現如此出色,主要是因爲它使用了人類來告訴模型哪些結果是好的,哪些結果是壞的,也就是所謂的 " 人類反饋強化學習 "(RLHF)。
根據強化學習初創公司 Adaptive 的聯合創始人 Julien Launay 介紹,AI 缺少如何将這些知識整合在一起的規則。例如,一個看似簡單的問題 " 我的 iPhone 掉了會怎樣?" 需要模型理解 iPhone 是什麽?物體掉落時會發生什麽?iPhone 很貴,掉了我會很傷心以及所有這些想法之間的關系。強化學習在某種程度上爲模型提供了自己的知識圖譜,告訴模型某些信息是如何關聯的。
不過,強化學習遠非完美,執行起來成本也很昂貴,業内期待更便宜、更有效的訓練方案。這一點很重要,因爲它意味着小型開發者可能很快就能利用,以前隻有大型模型提供商才能使用的訓練技術來改進他們的模型。
近期,一家利用私人數據開發定制模型的初創公司 Contextual AI 開發了一種方法,隻需要人類發出信号,也許是在聊天機器人上點擊,就能知道模型的反應是可取的還是不可取的。這種方法改進了傳統的、更加主觀的做法,即要求人類從多個可能的回應中選出他們認爲最佳的模型回應。Contextual 将這種新方法命名爲 "Kahneman-Tversky Optimization",以紀念這兩位著名的經濟學家。
Contextual AI 研究員 Kawin Ethayarajh 指出,研究人員還利用像 OpenAI 的 GPT-4 這樣更大、更複雜的模型,對更小、能力更弱的模型進行訓練。就目前而言,強化學習仍然是一個複雜而困難的過程,但像這樣的新發現有望讓處于劣勢的開發者在與 OpenAI 的競争中占得先機。