時隔七十多天,面壁在發布了 MiniCPM-2B 後又帶來四個特性鮮明的模型,同時它還官宣了數億元的新融資。
此次融資由春華創投、華爲哈勃領投,北京市人工智能産業投資基金等跟投,知乎作爲戰略股東持續跟投支持。這是其成立後最大的一筆融資。這家常被拿來對标 Mistral 的公司,并不滿足于隻做一個 " 中國 Mistral",彈藥充足後,它要把 " 打精銳 " 這件事進行到底了。
小而強,小而全:小鋼炮四連發
今年二月初,面壁智能發布了 2B 參數的開源端側模型 MiniCPM-2B,并稱之爲 " 小鋼炮 ",在更小參數的基礎上實現了 Mistral-7B、Llama2-13B 的性能。自發布以來,MiniCPM-2B 多次登頂 GitHub Trending,還收獲了 HuggingFace 聯合創始人 Thomas Wolf 的稱贊。
時隔七十多天,面壁智能一次性發布了四個模型,我們來看看它們的表現。
多模态模型 MiniCPM-V 2.0
MiniCPM-V 2.0 是可部署在手機端的多模态大模型,規模隻有 2.8B 左右,但在主流的評測中取得了很好的分數。OpenCompass 榜單,綜合 11 個主流評測基準,通用能力超過 Qwen-VL-Chat-10B、CogVLM-Chat-17B、Yi-LV-34B。
面壁智能特别強調了 MiniCPM-V 2.0 的幻覺概率很低,與持平 GPT-4V,在評估大模型幻覺的 Object HalBench 榜單上,MiniCPM-V 2.0 是 14.5%,GPT-4V 是 13.6%。
MiniCPM-V2.0 在 OCR 能力方面,場景圖片文字識别榜單 TextVQA 超越了全系 13B 量級模型,比肩 Gemini Pro。MiniCPM-V2.0 還加強了對于長圖的識别和理解,以及對各種尺寸圖片的兼容進行了優化,支持從 448x448 像素,到 180 萬像素的高清大圖,也支持 1:9 的極限寬高比。
長文本模型 MiniCPM-2B-128K
長文本已然成爲大模型的一種 " 标配 ",而 MiniCPM-2B-128K 用 2B 的規模實現了 128K 長文本能力,在 InfiniteBench 榜單的平均成績超過 Yarn-Mistral-7B-128K、Yi-6B-200K、ChatGLM3-6B-128K、LWM-Text-128K,在 7B 以下的模型中做到了最好的表現。
" 長文本這件事情才剛剛開始,雖然是 2B 的模型,還是需要非常大的内存才能讓模型跑起來,下一步會進一步做更加極緻的技術探索,讓長文本模型在端側跑起來。"
MOE 版本 MiniCPM-MoE-8x2B MoE
MiniCPM-MoE-8x2B MoE,引入了 MoE 架構,性能增強,能讓模型在原有基礎上平均水平有 4.5% 的提高。相比完全從頭開始訓練,節省訓練成本。通過 MOE 的方式,平均激活參數隻有 4B,但是比 LiaMA2-34B、Gemma-7B 等模型效果都要好,推理成本僅爲 Gemma-7B 的 69.7%。
" 更 Mini" 的 MiniCPM-1.2B
MiniCPM-1.2B 參數減少了一半,而能夠保持仍保持上一代 2.4B 模型 87% 的綜合性能,這其中涉及許多優化,例如把詞表中不高頻的詞替換。在多個榜單測試中,MiniCPM-1.2B 綜合性能超過 Qwen1.8B、llama2-7B,甚至超過 llama2-13B。
通過讓 1.2B 的模型效果超過了 1.8B 的模型,實現了手機端 25tokens/s。随着模型的變小,成本、和内存占用也随之降低,相比于 MiniCPM-2.4B,MiniCPM-1.2B 内存減少 51.9%,成本下降 60%。
" 模型小了,使用場景大了 "。MiniCPM-1.2B 除了能夠支持配置更低的手機,在諸如情感陪護、實時翻譯等應用場景都有着廣泛的應用。" 他們對于更小更強的模型都是非常期待的 "。
不止于 " 中國版 Mistral"
面壁智能 CEO 李大海将此次發布的系列模型總結爲 " 小而強,小而全 ",并再次強調了面壁智能的底層邏輯:一家追求高效大模型的公司。這很容易讓人聯想到同樣是追求高效,同樣做小參數高性能模型,同樣受到開源社區追捧的 " 歐洲 Open AI"Mistral。
不過面壁智能顯然不想隻是做第二家 Mistral,這家聚集了中國最早一批研究大模型的技術人員的公司有着自己鮮明的技術判斷和産品路線。
面壁智能高效訓練的方法論體現在模型訓練實驗科學化的思路上,在基礎設施上,面壁智能很早就自研了 BMTrain 等框架來支撐大模型的訓練,從而降低訓練成本。
在算法層面上,面壁智能通過進行大量的 " 沙盒實驗 ",對模型批次大小、超參數配置等最優訓練配置進行了探索,從理論上尋找最優解,用更小的成本和代價去搞清楚規律。比如在較小參數的模型上做大量沙盒實驗,通過科學化實驗化的 " 煉丹 ",用小模型預估更大規模參數模型的性能、參數方案,最終實現以小博大。
" 持續研究更好的 ScalingLaw,用更大的模型壓縮效果,用更少的數據訓練出更好的模型、更小的模型。"
此外,在基礎模型之外,面壁的另一個重點方向在 AI Agent,這也與 Mistral 很不同。
面壁智能是最早進行 Agent 研究的團隊之一,ChatDev 是面壁智能聯合 OpenBMB 及清華大學 NLP 實驗室開源的大模型 +Agent 項目,ChatDev 就像是多個 Agent 協作運營的軟件開發公司,用戶指定需求後,不同角色的 Agent 進行交互式協同,産出包括源代碼、環境依賴說明書、用戶手冊在内的完整軟件。通過多智能體協作,可以在現有模型中産生更好的效果。這也就是吳恩達近期在紅杉 AI 峰會上所說的 GPT3.5 + Agentic Workflow >GPT4,實際上,吳恩達在演講中直接使用了 ChatDev 作爲案例。
Agent 是面壁智能商業化的重要突破口,ChatDev 也從論文研究、開源産品,開始走向了商業化,面壁智能推出了 AI Agent 的 SaaS 化産品 ChatDev,嘗試幫助軟件開發者和創業者以更低成本和門檻完成軟件開發工作。與此同時,面壁智能也在探索大模型 +Agent 在金融、教育、政務、智能終端等場景的商業應用落地。
OpenAI 用大力出奇迹提供了一條通往 AGI 的路徑,但抵達彼岸的方法并非隻有一條。在瘋狂燒錢拼算力的大模型行業,僅靠單一維度的提升會出現瓶頸,而且這種提升可能會受到邊際效益遞減的影響。面壁智能用實驗科學的方式做基礎模型研究,強調高效,某種程度上追求的是一種 " 性價比 "。在相同資源的情況下,面壁可以利用 " 高效 " 的杠杆獲得更高的收益。MiniCPM 系列模型已經證明了在相同的資源内把模型做得更好是可行的,接下來可以期待面壁延續這個思路,拿出 GPT-4 級别的模型産品。
相較之下,Mistral 雖然在推出了号稱挑戰 GPT-4 的大模型産品,但不僅在商業模式上越來越卻像 OpenAI,Mistral Large 也不再開源,這讓人開始質疑,拿了微軟投資之後的 Mistral,是否走上了 OpenAI 的老路,最終成爲微軟的又一個 " 附庸 "。
如果說追求高效是面壁智能和 Mistral 相同之處,而對于 Agent 的研究投入和積累,又讓面壁這家公司擁有了不同的商業化道路。從網站到 App,我們見證了互聯網原生應用主要載體的變遷,在 AI 時代,Agent 具備了新的潛力,小鋼炮們又成爲挖掘這種潛力的最佳載體。
從對标 Mistral 、再到超越 Mistral,面壁智能或許選擇了一條少有人走的路,但它已經有了足夠的底氣繼續走下去。