文 | 周鑫雨
編輯 | 鄧詠儀
當大模型加速應用落地,運行成本就成爲各廠商的現實考量。
将模型做小,成爲現實市場需求下的趨勢。但模型的 Scaling Law(規模定律)已指出,參數規模是決定模型性能的最關鍵因素。如何用更小的參數規模,達到比肩大模型的性能,是需要解決的難題。
" 以小博大 " 的勵志故事,2023 年 9 月發生在法國 AI 獨角獸 Mistral 上。其發布的開源模型用 7B 的參數規模,在 MMLU(多任務語言理解)、Knowledge(知識)、Reasoning(推理)、Comprehension(理解)等關鍵指标上均超越了 Meta Llama 2 的 13B 模型。
這一個故事,在 2024 年 2 月 1 日的發布會上,也被 AI 模型層公司面壁智能的 CEO 李大海不斷提起。
對标 Mistral,面壁智能發布了訓練數據規模近 1T、參數規模僅 2B 的模型:聚焦于适配端側硬件的端側大模型 MiniCPM-2B。
爲什麽瞄準端側場景?李大海給出的理由,仍然是旺盛的市場需求,和雲端協同的部署趨勢。自 2023 年下半年起,三星、華爲、小米、特斯拉、理想等國内外手機和智駕廠商都發布了适配于終端硬件的大模型。
在終端硬件廠商加速産品 AI 化的趨勢下,面壁智能認爲,成本是大模型的隐形競争力," 比起 size,我們更在意成本 "。
以搭載了骁龍 855 芯片的 OPPO 手機爲例,MiniCPM 每秒能處理 7.5 Tokens,運行 5 年後報廢,成本爲 600 元,由此可得 170 萬 Tokens 的推理成本僅 1 元—— MiniCPM 的推理成本僅 Mistral 的 1/100,GPT-4 的 1/360。
據介紹,目前 MiniCPM-2B 在 CPU(比 GPU 計算吞吐量低)上就能跑起來,相較于用 GPU 才能運行的大模型,能夠降低推理成本。與此同時,即便将大小壓縮 75%,MiniCPM 的性能也能做到基本無損耗。
在性能上,MiniCPM-2B 的中文知識能力、代碼能力、數學能力已經超過 Mistral-7B,而英文知識能力、邏輯能力和常識問答能力還存在一定差距。而在測試模型接近人的程度的評測榜單 MT-Bench 上,MiniCPM-2B 的表現超過了 Llama 2-70B-Chat。
MiniCPM-2B 和 Mistral-7B 在主流評測集上的測評結果。圖源:面壁智能
MiniCPM-2B 和主流模型在 MT-Bench 上的測評結果。圖源:面壁智能
就實際效果而言,MiniCPM-2B 能夠理解 " 中夾英 " 的多語言問題,并用法語作答;同時也能實現代碼生成。
MiniCPM-2B 的多語言交互。圖源:面壁智能
MiniCPM-2B 書寫自身代碼。圖源:面壁智能
爲了能夠讓 MiniCPM 以小博大,面壁智能主要在 Infra、算法和數據三個層面,做了技術優化。
在 Infra 層面,基于集成了訓練、推理、壓縮、微調的全流程高效 Infra,面壁智能能夠将推理加速到 10 倍,将算力成本降低 90%。
在算法層面,通過上千次的模型沙盒實驗,面壁智能對模型批次大小、超參數配置等最優訓練配置進行了探索。
在數據層面,用于 MiniCPM 的 1T 精選訓練數據,來源于經過數據治理、多維評測的數據工廠。
爲了将多模态能力搬上了手機,面壁智能還發布了多模态端側模型 MiniCPM-V。
通過将手機調整爲飛行模式來模仿野外無信号的情況,面壁智能演示了野外生存情況下人與 MiniCPM-V 的多模态問答。比如,MiniCPM-V 可以識别毒蘑菇和毒蛇,并給出防護建議。模型響應速度接近 7 Tokens/ 秒,幾乎無延遲。
MiniCPM-V 有關毒蘑菇的問答。圖源:面壁智能
MiniCPM-V 有關毒蛇的問答。圖源:面壁智能
除了 MiniCPM-V 這款端側多模态模型外,面壁智能對 12B 的多模态模型 OmniLMM 進行了開源(GitHub 地址):https://github.com/OpenBMB/OmniLMM
相較于 MiniCPM-V,OmniLMM 不僅支持多模态對話,還支持多模态的實時交互,比如用戶可以實時與模型進行石頭剪刀布的遊戲,也可以讓模型實時識别路況。李大海介紹,未來 OmniLMM 的能力,也将逐步集成到 MiniCPM-V 上。
OmniLMM 有關景點的問答。圖源:面壁智能
目前,MiniCPM 已經與國際主流手機機型和 CPU 進行了配置測試。當然,将模型接入終端設備,依然有不少問題亟待解決。
比如接入後,模型是否還能在端側進行自主學習和叠代?面壁認爲,通過高效參數微調技術,目前 MiniCPM 能在手機夜間充電時段,基于用戶人機交互産生的數據知識和信息進行自主微調,但效果仍有待提高。
再比如,模型如何與搭載不同芯片的硬件進行一對一的适配?除了不斷推動行業标準的建立,面壁認爲目前可行的解法是開源,從而讓開發者自行做适配的嘗試。目前,MiniCPM 也上線 GitHub(内含技術報告):https://github.com/OpenBMB/MiniCPM
無論是端側模型的自我叠代能力,還是軟硬件适配的标準建立,大模型想要進入端側,仍需要全産業鏈的推動。
歡迎交流!