國内最早一批大模型研究者們建立的 AI 公司面壁智能,2 月 1 日發布了一款 " 實驗性 " 十足,但野心巨大的端側 " 小參數 " 模型—— MiniCPM-2B。
訓練一些參數較小(一般指 70 億參數以下)的大語言模型,讓它們可以在端側本地運行并同樣實現強大的功能,是近來大模型領域的一個重要課題。微軟推出了 Phi2,谷歌的 Gemini 系列裏專門開發了小尺寸的版本 Nano,而有 " 歐洲 OpenAI" 之稱的 Mistral 推出的 Mixtral 7B,更是大受開源社區歡迎。
而現在面壁想用自己的方法,用 MiniCPM 來挑戰一下它們的天花闆。
高性能,低成本
"Mistral 的 Mixtral 7B 在開源社區受到極大關注并且下載量也很大,它用 70 億參數的模型戰勝了 130 億參數的模型,我們也想體現我們的效率,而我們要用 20 億參數的模型幹掉 LLaMA130 億參數的的模型。" 面壁智能 CTO 賈國洋在發布模型時說。
打的就是精銳。
那麽這個以小搏大的模型表現如何?話不多說,先來看看它和對手們的對比情況。
根據其 Github 頁面總結:
經過 SFT 後,MiniCPM 在公開綜合性評測集上,MiniCPM 與 Mistral-7B 相近(中文、數學、代碼能力更優),整體性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。
經過 DPO 後,MiniCPM 在當前最接近用戶體感的評測集 MTBench 上,MiniCPM-2B 也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等衆多代表性開源大模型。
這是 MiniCPM-2B 與同尺寸模型的性能評分對比圖。
而在一系列的評分對比中,在使用 DPO 完成偏好對齊後,MiniCPM-2B 模型在更接近人們日常使用體感的 MT-Bench 上的分數甚至還可以超過包括 Llama2-70B-Chat 在内的大模型。
不過在技術報告中,面壁智能也強調,這部分的評分中因爲部分學習數據可能會讓模型表現有利于 MTBench 的評測,例如讓模型的生成風格更受 GPT-4 Evaluator 的喜歡,因此 " 希望研究者冷靜看待榜單上的評測結果。例如,我們認爲作爲一個 2B 的小模型,可能在很多任務上仍然是弱于 Llama2-70B-Chat 的 "。
評分感受還是比較抽象,我們看一看它的一些具體的能力展示。
代碼生成能力:
數學能力:
加入了多語言幹擾後的翻譯表現:
而且,此次面壁智能還把多模态版本的 MiniCPM-V 部署在手機,首次跑通了多模态大模型在手機上的部署。面壁智能展示了一個端側模型離線狀态下,用戶在偏遠山上想要識别一個蘑菇是否有毒的場景。
另外,在達到這些效果的同時,它的成本也控制在很低的水平。發布會上,面壁智能 CEO 李大海表示,一張 1080/2080 可高效參數微調,一張 3090/4090 可全參數微調,一台機器可持續訓練 MiniCPM,二次開發成本較低。
" 我們看中了端側模型的另外一點就是成本。成本決定大模型的利潤率,2023 年我們做非常多商業化實驗的時候,看到很多應用場景下的客戶都會非常關注模型的成本,雖然千億模型效果很好,但是當它真的要大規模部署的時候,其實還是有很多的障礙。而在端上模型當中,從成本角度讓推理成本實現斷崖式下跌,甚至可以實現 CPU 推理,進而實現成本更低。" 他說。
" 規模飙升的技術競賽中,成本是大模型隐形競争力,人們需要省錢大模型。 "
把訓練模型變成實驗科學
爲什麽能實現上面提到的這些成績?面對這個問題,面壁智能的團隊非常自信。
在發布會上,矽星人 / 品玩 CEO 駱轶航和面壁智能技術核心團隊做了對話
" 我們沒有追趕誰,我們一直是領先的。" 面壁智能的聯合創始人,清華大學長聘副教授劉知遠對我說。
" 尤其在 Scaling 的方面。" 他的研究方向從深度學習、BERT、大模型到 Agent,都在今天大模型的發展方向上。
據他透露,Mistral 也經常聯系他們和他們讨論面壁提出的許多研究方法。
在此次模型開發過程中,面壁智能胡聲鼎是那個掌勺者。" 開發模型就像做菜,這是我們的三星大廚。" 劉知遠介紹。
胡聲鼎同時也是清華大學計算機系博士,他在技術博客和當天的分享中簡單介紹了模型背後的一些技術亮點。
總體上,它體現出一種把模型訓練科學化,變成某種實驗科學的思路。
最重要的一個體現是模型沙盒。
簡單說,就是在一些更小的參數,比如 0.009B(也就是 900 萬參數)的模型上做沙盒實驗,并且是大量的實驗,然後通過試驗結果,研究出在學習率、Batchsize 以及超參數穩定的最佳 " 配方 ",然後預估并使用到真正要訓練的更大規模參數的模型上。這理論上避免了諸如每次訓練模型都要重新進行超參數調整等在成本和技術上都不太現實的做法。
這個實驗的過程事實上也是面壁智能做出技術路線判斷的過程。
它首先是一系列具體的判斷:
比如模型最關鍵的超參數——學習率并不會因爲規模擴大而大幅度改變,比如在損失函數與 token 數變化的研究上,挑戰了 OpenAI 提出的不消耗過多步數的策略,轉而追求最少 token 量;比如在學習率調度器上推翻了現在最主流的 Cosine LRS,提出了在學習過程中初期表現略差于 Cosine LRS 但後期會實現 " 反超 " 從而整體更優的 WSD 調度器。
圖源:MiniCPM 技術博客
而且,讓我覺得最有意思的是,面壁的一系列實驗不隻是研究某個單點的最優解,它還帶來了一個新的可能:用實驗的方式來真實解答一個問題——當你對一個固定大小的模型不停的訓練下去,是不是其實可以比訓練一個更大的模型效果更好?它帶來的答案會直接決定你的技術方向。
根據實驗,面壁智能團隊表示,2B 的 MiniCPM 的持續訓練後可以接近甚至超過 9B 的 Chinchilla Optimal 模型。
在這些具體判斷之上,則是更 " 終局 " 的判斷——大模型最終變成今天這個樣子,很大程度就是 OpenAI 當初對 GPT 路線的 " 賭注 " 決定的,面壁的一系列研究和技術布局背後也有這個對 AGI 的它自己的賭注。
" 我從技術角度來看,大模型的技術路線大方向已經确定了。就是一個純 data driven 的方案,而預訓練也好,這些都是它對應的具體方法。而這個和 2023 年之前大家一緻認爲的方案是非常不一樣的。我們在 2022 年底之前一直以爲自然語言處理的解決還需要十幾年的時間,它需要把更多外部的知識放到模型,才能掌握常識知識。" 劉知遠對我說。
" 但 ChatGPT 讓我們發現它已經可以非常好地把常識學到,這個對于我來講是一次非常大的教育。所以ChatGPT 的出現意味着 2023 年整個自然語言處理領域進入到了打掃戰場的狀态——核心問題已經解決差不多了,剩下的都是怎麽讓它變得更高效。"
他認爲接下來的六七年時間一個非常重要的競争優勢,就在于一個團隊有沒有足夠強的技術上的原創探索能力。
" 世界上從來沒有人探索出來過把 2B 模型達到這麽一個水平,今天我們可以達到,大家可以沿着這個方向跑,但我們可以比他們跑得更快,做更多的新的問題。這個至少是我們未來五六年裏面我們的護城河,它不是單獨的東西,而是我們強大的産研的團隊,非常完美的清華大學自然語言處理實驗室跟面壁智能聯合的機制。"
此次發布的 MiniCPM-2B 也是一個系列模型的主力,面壁智能也對這系列模型做了全面的開源。
基于 MiniCPM-2B 的指令微調與人類偏好對MiniCPM-2B-SFT/DPO。
基于 MiniCPM-2B 的多模态模型MiniCPM-V,能力超越基于 Phi-2 的同參數級别多模态模型。
MiniCPM-2B-SFT/DPO 的 Int4 量化版MiniCPM-2B-SFT/DPO-Int4。
基于 MLC-LLM、LLMFarm 開發的 MiniCPM 手機端程序,文本及多模态模型均可在手機端進行推理。
想要體驗這些模型的開發者可以去以下鏈接下載體驗:
https://github.com/OpenBMB/MiniCPM
技術博客的更多細節可以在此找到:
https://shengdinghu.notion.site/MiniCPM-c805a17c5c8046398914e47f0542095a