“大模型”激戰正酣，“小模型”在開辟新戰場

AI 模型軍備競賽風起雲湧，各家大模型打得火熱的同時，小模型競争開辟出新戰場。

本周多家公司在 " 小模型 " 方面開疆拓土，試圖證明其模型可以事半功倍。周一，法國初創公司 MistralAI 公布的開源模型 Mixtral 8x7B 引起轟動，該模型不僅性能比肩 GPT-3.5，另一大優勢是規模小到足以在一台電腦上運行。

周二，微軟亮出了小模型大招，發布 27 億參數規模的小語言模型 Phi-2，在部分基準測試中超過谷歌的 Gemini Nano 2，可以在筆記本電腦、手機等移動設備上運行。

毫無疑問，規模較小的模型可以降低了大規模運行人工智能應用的成本，同時極大地拓寬了生成式 AI 技術的應用範圍。

此外，事關模型能力強大與否的關鍵——強化學習（RL）技術最新的優化進展也引起業界的關注。

" 小模型 " 開辟新戰場

MistralAI 的小模型 Mixtral 8x7B 爲開源模型，其規模參數相對較小，而能力卻能達到 GPT-3.5 的水平，迅速引起了業内研究人員的關注。

Mixtral 8x7B 之所以叫 Mixtral 8x7B，是因爲它屬于稀疏模型，将各種爲處理特定任務而訓練的較小模型組合在一起，從而提高了運行效率。

性能方面，Mixtral 表現優于 Llama 2 70B，推理速度提高了整整 6 倍；在大多數标準基準測試上與 GPT-3.5 打平，甚至略勝一籌。

成本方面，由于 Mixtral 的參數較小，所以其成本也更低。與 Llama 2 相比，Mixtral 8x7B 表現出自己高能效的優勢。

值得一提的是，MistralAI 剛剛完成 4.15 億美元融資，最新估值已經沖破 20 億美元，在短短 6 個月中增長了 7 倍多。

本周另一家登場的小模型是微軟自制模型 Phi-2，Phi-2 的參數隻有 27 億，小到足以在手機上運行。該模型在精心挑選的數據集上進行了訓練，數據集的質量足夠高，即使手機的計算能力有限，也能确保模型生成準确的結果。

從性能表現看，Phi-2 在 Big Bench Hard（BBH）、常識推理、語言理解、數學和編碼基準測試中，其平均性能得分已經超過 70 億、130 億參數規模的 Mistral 和 Llama 2，在部分基準測試中超過谷歌的 Gemini Nano 2。

目前微軟正發力小模型的布局，分析指出，微軟與 OpenAI 的緊密合作，使得 GPT 模型的表現在大模型市場一騎絕塵，再加上微軟參數規模更小的 Phi 系列，能進一步搶占開源模型長尾市場。

模型能力強大的關鍵：強化學習技術

AI 領域的另一大進展則是強化學習技術的優化，強化學習是一種基于 " 獎勵期望行爲 " 和 " 懲罰不期望行爲 " 的機器學習訓練方法。許多人猜測，OpenAI 的模型之所以表現如此出色，主要是因爲它使用了人類來告訴模型哪些結果是好的，哪些結果是壞的，也就是所謂的 " 人類反饋強化學習 "（RLHF）。

根據強化學習初創公司 Adaptive 的聯合創始人 Julien Launay 介紹，AI 缺少如何将這些知識整合在一起的規則。例如，一個看似簡單的問題 " 我的 iPhone 掉了會怎樣？" 需要模型理解 iPhone 是什麽？物體掉落時會發生什麽？iPhone 很貴，掉了我會很傷心以及所有這些想法之間的關系。強化學習在某種程度上爲模型提供了自己的知識圖譜，告訴模型某些信息是如何關聯的。

不過，強化學習遠非完美，執行起來成本也很昂貴，業内期待更便宜、更有效的訓練方案。這一點很重要，因爲它意味着小型開發者可能很快就能利用，以前隻有大型模型提供商才能使用的訓練技術來改進他們的模型。

近期，一家利用私人數據開發定制模型的初創公司 Contextual AI 開發了一種方法，隻需要人類發出信号，也許是在聊天機器人上點擊，就能知道模型的反應是可取的還是不可取的。這種方法改進了傳統的、更加主觀的做法，即要求人類從多個可能的回應中選出他們認爲最佳的模型回應。Contextual 将這種新方法命名爲 "Kahneman-Tversky Optimization"，以紀念這兩位著名的經濟學家。

Contextual AI 研究員 Kawin Ethayarajh 指出，研究人員還利用像 OpenAI 的 GPT-4 這樣更大、更複雜的模型，對更小、能力更弱的模型進行訓練。就目前而言，強化學習仍然是一個複雜而困難的過程，但像這樣的新發現有望讓處于劣勢的開發者在與 OpenAI 的競争中占得先機。