出品|虎嗅科技組
作者|齊健
編輯|王一鵬
頭圖|DALL-E 3
2 月 1 日,面壁智能發布了最新的旗艦端側 AI 大模型 MiniCPM-2B,參數規模爲 20 億,使用了 1TB 精選數據進行訓練。
面壁智能 CEO 李大海在發布會上稱,MiniCPM-2B 在多項主流評測榜單、中英文平均成績均超越了開源的 Mistral-7B,英文榜單的平均分甚至超越了 Falcon-40B、MPT-30B 等百億參數模型。
雖然面壁智能仍将 MiniCPM-2B 定義爲 " 大模型 ",但在動辄千億、萬億參數規模的大語言模型(LLM)背景下,很多人認爲隻有幾十億參數的模型應該叫做 " 小模型 "。
在 2024 年 1 月的達沃斯世界經濟論壇期間,微軟首席執行官 Satya Nadella 接受 Bloomberg 采訪時曾誇贊微軟的 Phi 是 " 最好的 SLM(小語言模型)"。Nadella 表示,在 AI 方面微軟牢牢 " 掌握着自己的命運 ",不會隻依賴 OpenAI 的大語言模型。
Phi 是微軟在 2023 年 6 月公布的一款擁有 13 億參數的語言模型,9 月公布的 Phi-2 參數規模擴大到了 27 億,在一些常識推理、語言理解、數學和編碼任務上,Phi-2 甚至超越了 70 億和 130 億參數的 Llama 2。
據外媒 The Information 報道,微軟已經組建了一個新團隊開發對話式 AI。與 OpenAI 的模型相比,該團隊的研究方向更偏向于小規模,低算力需求的模型。知情人士透露,微軟已将幾位頂尖 AI 開發人員從其它研究小組調至這個新團隊。
在 AI 大模型之外另辟蹊徑,或許是微軟在 AI 時代掌握自己命運的最佳選擇。而對于那些沒有條件 " 依賴 "OpenAI,也很難追趕 OpenAI 的公司來說,微軟的做法似乎成爲了一種啓示——在業界普遍關注超大規模參數量的時候,反其道而行之的 " 小模型 ",似乎正在成爲 All in AI 大模型的一條 " 退路 "。
" 小模型 " 的優勢是什麽?
事實上,AI 業界對小模型的定義并不統一。面壁智能首席研究員韓旭表示," 不是 20 億參數的模型小,而是 1 萬億參數的模型太大了,應該稱 GPT-4 這類的模型爲超大模型。" 中工互聯創始人智振則認爲,10-30 億參數的模型,比較适合稱爲輕量化大模型,或是嵌入式大模型。"
在 2023 年中發布的大語言模型(LLM)并不都具備超大規模參數。除了幾個業内頂尖的大模型之外,主流的開源模型多數爲 70 億、130 億參數量。Meta 發布的 LLaMA 2 系列模型,最大參數量也隻有 700 億。
對于一些 AI 公司來說,訓練和推理成本是限制模型參數規模的主要原因之一,業内普遍認爲,GPT-4 訓練一次的成本約爲 6300 萬美元。
LLaMA 2 的論文中提到了訓練模型過程中使用 NVIDIA A100 80GB 版本的用量,訓練 70 億參數模型約需要 18 萬 GPU hours,訓練 700 億參數模型所需的算力資源則相應地翻了 10 倍,達到 172 萬 GPU hours。
LLaMA 2 論文
按照阿裏雲目前的報價,8 張 40G 的 A100 GPU 服務器,每小時租賃成本是 252.66 元人民币。即便把 40G 的 A100 當成 80G 的來用,在阿裏雲上要完成一次 LLaMA 2 的 700 億參數模型訓練,也需要 5433 萬元。如果把參數量壓縮到 20 億,訓練一次的成本可能隻要不到 200 萬元。
GPT-4 這樣的超大模型在推理成本方面,也比參數量較小的模型高出很多。
1 月 25 日,OpenAI 宣布了 2024 年第一次 API 價格調整,GPT-3.5-Turbo 的最新的輸入價格将降低 50%,至 0.0005 美元 /1000 tokens,輸出價格則降低 25%,至 0.0015 美元 /1000 tokens。
目前 OpenAI 最貴的 API 是 GPT-4-32k,輸入價格爲:0.06 美元 / 1000 tokens,輸出價格爲:0.12 美元 / 1000 tokens。相比于參數量較小的 GPT-3.5-Turbo,GPT-4-32k 的定價分别貴了 120 倍和 80 倍。
GPT-4 和 GPT-3.5-Turbo 之間的參數量還不是很大。如果把模型壓縮到十億級别,那麽運行模型的推理成本則可以降低到約等于購買運行模型的端側設備成本。
目前,很多模型已經可以繞開雲服務,直接在本地的 PC 端進行訓練和推理。在高端的 PC 設備方面,已經有開發者嘗試用蘋果的統一内存架構芯片研究 LLM,在配備了 M2 芯片和 192GB 内存的 Mac Studio 上,甚至可以跑 700 億參數的 LLaMA 2 模型。
面壁智能最新發布的 MiniCPM-2B 把 " 小模型 " 的運行環境又調低了一個層級,在 MiniCPM-2B 的發布會上,李大海現場演示了該模型在 OPPO Find N3 上完成的離線推理。文本處理速度也很快,幾乎達到了 7 tokens/s。
" 以配備骁龍 855 芯片的 OPPO 手機爲例,一台手機的成本約爲 600 元人民币,使用 5 年。按每秒吞吐 7.5 tokens 算,輸出 170 萬 tokens 的推理成本僅爲 1 元。" 李大海介紹說,目前 GPT-4 的推理成本約爲 1 人民币 4700 tokens。當前手機端還沒有針對 AI 推理進行大規模優化,随着端側模型的普及,未來手機的推理成本還會進一步下降。
除了本身算力需求低、不挑卡以外,參數規模較小的模型還更 " 喜歡 " 中低端 GPU。
2023 年 11 月,麻省理工學院(MIT)的一篇論文中介紹了其在 Supercloud 高性能計算系統上使用不同規模的 LLaMA 模型(7B,13B 和 65B)進行的推理實驗,實驗顯示模型的參數量越小,同等硬件環境下的功耗越低。
有趣的是,雖然三種尺寸的 LLaMA 模型在使用顯存、功耗較低的 V100 GPU 時,每秒能量消耗均比 A100 有顯著下降,但其中參數量最小的 7B 模型能耗下降更爲明顯。
來源:From Words to Watts: Benchmarking the Energy Costs of Large Language Model Inference
相對于超大參數規模的 LLM," 小 " 模型最大的優勢就是更 " 省 ",不僅省電、省錢,還省時間。而這個 " 省 " 的特性,也注定了小尺寸模型更容易落地,更容易賺錢。
"大型公共模型本身幾乎沒有爲企業提供任何價值。" 戴爾人工智能戰略高級副總裁 Matt Baker 在談到與 Meta 合作的 LLaMA 2 落地業務時曾表示,客戶不應該爲那些對他們業務知之甚少的超大 AI 模型付費。
Matt 指出了一個關鍵問題——雖然參數規模較小的 LLM 在模型能力等方面與超大模型存在一定差距。但今天的很多垂直場景,對于 AI 大模型的通用性、泛化性要求并沒有那麽高,有些行業用戶甚至希望 AI 不要太 " 發散 "。
" 小模型 " 需求無處不在
雖然面壁智能在發布 MiniCPM 的時候,并沒有明确提出應用場景,而隻是給出了一個半玩笑式的應用場合——野外生存錦囊。但當 AI 大模型能夠在手機、電腦端流暢運行,則給應用落地提供了巨大的想象空間。
事實上,超大 AI 模型在用戶需求層面存在着一定程度的背離,在工業、金融、汽車三個急需 AI 落地的領域裏,尤爲明顯。
" 工業領域的知識有其普遍性,因此工業 AI 并不一定非得要巨大的參數量。" 智振認爲,在不同工廠和行業中,很多數據和标準高度相似,例如配電和工廠的建築标準。對于數據和标準差别較大的行業,則可以有針對性地開發專門的模型。AI 大模型在工業場景中的作用,更多是理解非結構化的問題,然後幫助人類找到标準答案。目前中工互聯已經開源了一款 16 億參數的輕量化大模型——智工(Zhigong-1.6B)。
工業場景雖多,但工業企業普遍不富,因此落地速度也相對較慢。目前,AI 業界普遍認爲大模型落地最快的領域是金融。
" 銀行的數據基礎好,出手也相對慷慨 ",智譜 AI 首席執行官張鵬告訴虎嗅,很多國内 AI 公司的早期客戶都來自金融行業,智譜 AI 也爲金融行業客戶專門定制了行業技術模型 FinGLM。
在很多金融場景中,基金經理或是股票交易員,每天需要處理海量新聞信息,作爲 AI Copilots 的用戶,他們不僅需要技術的泛化能力,更需要能夠與特定應用場景緊密結合的解決方案,AI 技術的應用可以顯著提高他們的工作效率。
據 The Information 報道,微軟的 " 小模型 " 已經開始在一些金融和銀行客戶中進行測試,其中高盛就一直在測試微軟的 Phi 模型。
金融行業對輕量化大模型的态度明顯更加友好。首先,出于安全考慮,金融行業無法接受基于公有雲運行的 AI 大模型,有些場景可能會用到私有雲,有些地方則需要離線的端側設備上運行 AI。受基礎設施的限制,需要大算力的超大參數模型很難落地。
此外,金融行業對于 AI 的實時響應效率要求很高。參數過大的模型在響應速度方面,不僅受制于運算推理速度,還會被網絡速度影響。在一些需要實時交易或者研判的金融場景中,零點幾秒的延遲,都有可能錯過巨大的利益。因此,能否本地化部署成了一些客戶選擇 AI 模型的一個參考條件。
微軟透露的消息稱,面向銀行和對沖基金等主要客戶的 AI Copilot 項目,目前能夠實現自動編程、撰寫報告、數據彙總與分析等很多功能,預計将帶來 100 億美元的收入。
過去一年,包括 Jane Street 和 Intuit 在内的金融公司,通過微軟購買 OpenAI 技術,摩根大通也增加了其在微軟雲上的 OpenAI 模型采購,用于開發客戶服務聊天機器人和自動生成企業收益報告工具。
花旗銀行、摩根大通和高盛等金融巨頭,在 2023 年下半年均加大了對微軟人工智能産品的投入。這些産品不僅有辦公軟件中的 Copilots,還包括了一些定制的人工智能模型開發服務。
除了工業和銀行外,AI 大模型另一個主要落地場景是汽車。
2024 年初的 CES 上,奔馳、寶馬、大衆等紛紛展示了融合最新 AI 大模型技術的車機系統。國内的比亞迪,也在近期推出了全新的整車智能化架構 " 璇玑 " 及其 AI 大模型 " 璇玑 AI 大模型 "。
汽車無疑是電腦、手機之外的最重要的終端設備,新能源車的快速發展,使車機系統有機會變得像手機一樣無所不能。這也使得衆多手機廠商紛紛轉型造車,以期通過手機端的産品思維,跨界搶占新的終端市場。
在 AI 大模型的爆發之年," 軟件定義汽車 " 的概念迅速崛起,駕駛環境的特殊性,可以說給 AI 大模型在車上提供了天然的落地環境。
然而,基于雲服務的主流大模型要上車,難免會受到網絡環境的限制。盡管在過去幾年中,汽車行業在車聯網的發展中投入巨大,但汽車的使用場景過于複雜,很難實現駕駛過程的全程聯網。因此,離線運行能力在很多 AI 大模型 " 上車 " 的場景中尤爲重要。
這也給輕量化模型在車機系統方面提供了很多機會。
業界巨頭,早已 " 暗暗 " 布局
在市場對 AI 需求持續上漲中,供應端在 2024 年對生成式 AI 的關注點正在快速發生轉移。
面壁智能本次發布的 MiniCPM-2B 并非孤例,輕量化模型、端側 AI 已經隐隐成爲 AI 大戰新的主戰場。
在 AI 大模型的研發側,國内外最先關注 " 小模型 " 的公司,卻是在刻闆印象裏,那些隻應鍾愛超大模型的頭部雲廠商。
阿裏雲在 2023 年 12 月推出了 18 億參數的通義千問 -1.8B(Qwen-1.8B),以及利用對齊機制打造的 AI 助手 Qwen-1.8B-Chat。這款模型使用超過 2.2 萬億 tokens 的數據進行預訓練,包含高質量中、英、多語言、代碼、數學等數據,涵蓋通用及專業領域的訓練語料。
阿裏雲 CTO 周靖人表示:我們希望有了這款模型之後,大家有更多的開放式探索,像機器人、IoT,可以把這些 " 小模型 " 集成到端上,這是一個趨勢。
除了推出小參數量的 LLM,通義千問在模型的量化壓縮過程中也表現良好。開源的 70 億參數 Qwen-7B,在模型的量化和壓縮性能方面得到了一些行業的認可。聯想正在研發的 AI PC 功能中,就基于 Qwen-7B 模型做了一些量化和壓縮工作。
" 原來一個參數用兩個字節來存儲,經過壓縮,一個參數隻有半個字節就可以存儲,且還能保持原有的模型性能。" 聯想研究院研究員謝棟表示,壓縮後的 AI 大模型 + 電腦本身的緩存,大概隻要 5-6G 内存就能運行起來。" 在參數量不變的情況下,我們可以把原始大小爲 14.4GB 的 Qwen-7B 壓縮到 4GB。"
MiniCPM-2B 也對模型進行了 INT4 量化,模型的總存儲量僅有 2GB。
模型參數量的大幅下降,使 AI 不再局限于雲,AI 大模型的戰火也開始從模型燒到終端。
在 PC 端,微軟再度成爲風暴中心。
過去十幾年中,雖然微軟不斷加大雲計算的投入,但核心業務始終圍繞傳統軟件和 PC。如果 AI 一直依雲而生,雖然對 Azure 業務促進很大,但在 PC 業務方面,微軟可能需要花更大的精力去 " 重做 "Windows 和 Windows PC。
在 2024 年 CES 前夕,微軟就宣布了在新款 Windows 11 電腦上配備了 Copilot 按鈕,可以一鍵調用 AI 聊天機器人,Windows PC 鍵盤布局上次重大變革還是在 30 年前。除了增加按鈕,微軟也正在嘗試使用簡化的語言模型(SLM)來處理 Bing AI 聊天機器人和 Windows Copilot 用戶的基本查詢。
除了微軟和聯想等 PC 廠商,手機廠商也正在積極研發新産品,加速輕量化的 AI 大模型落地。
1 月 18 日,三星推出了首款 AI 手機 Galaxy S24 系列手機,具備通話實時翻譯、AI 圖像編輯等多種 AI 功能。國内手機廠商 VIVO 也推出了藍心系列大模型系列,其中包含了參數量較小的十億級别模型,主要面向端側場景打造專業文本大模型,具備本地化的文本總結、摘要等能力。
在谷歌最新發布的 Gemini 大模型中,參數規模最小的 Gemini-nano 也已經預定到了谷歌的 Pixel 8 Pro 智能手機中。
目前,MiniCPM-2B 已在多款主流手機中都跑出了較好的成績。
MiniCPM-2B 在主流手機上的輸出速度
結語
受主流大廠、場景化需求的驅動,市占額達 90% 的英偉達,也正面臨着雲端協同的新變局,終端 AI 的快速發展,或将推動端側硬件搶走雲端獨占的 AI 算力需求。
高通在 2023 年 10 月推出的最新移動端芯片骁龍 X Elite Oryon CPU,集成了轉爲 AI 打造的高通 Oryon CPU,支持在終端側運行超過 130 億參數的 AI 大模型,運行 70 億參數的大模型時每秒可生成 30 tokens。
2024 年 1 月剛過,輕量化 AI 模型和 AI 硬件的市場上,已經推出了多款新品。AI 在端側的落地還在持續加速,輕量化模型,以及針對這些模型開發的硬件産品,正在開啓 AI 硬件的混戰之年,或也将給 2024 打上 "AI 硬件元年 " 的标簽。
在談到縮小參數規模,是否會限制 AGI 的未來發展時,清華大學長聘副教授劉知遠表示,"在我來看大模型不是産品,而是一項技術。" 他認爲,如果隻是看模型參數規模,今天的 MiniCPM 可能跟 5 年前的 BERT 規模差不多。但大模型的技術體系已經發生了翻天覆地的變化。"技術是一脈相承的,如果我可以讓一個 20 億參數模型,實現 40 億模型的效果,那我也可以用這樣的技術做 800 億的模型,甚至 8000 億的模型。"