沒有刷不了的榜,隻有還沒 over-fitting 的數據集;
沒有搞不定的第一,隻有還沒加夠 XX 領域,XX 尺寸,XX 語言的限定詞。
盡管自 2012 年深度學習複蘇之日起,AI 打榜就成爲了行業默認慣例,但曆來如此,就是真的正确嗎?
去年 9 月,一篇 LLM 味爆棚的反諷文章,在 arXiv 引起軒然大波《Pretraining on the Test Set Is All You Need》,(别搞大模型了),你隻需要在測試集上預訓練就夠了。
吐槽了市面上層出不窮的各種大模型測試榜單之外,這篇論文,直白點名了 phi-1、TinyStories 和 phi-1.5 幾個大模型在明目張膽搞榜單造假。
比如,使用測試集中數據提問 phi-1.5,模型會立刻給出一個精準的回複,但隻要改變一個數字或者改變一下數據格式,回答立刻變得牛頭不對馬嘴幻覺頻出。
原因很簡單,爲了刷榜,模型對 MMLU、GSM8K、Big-Bench、AGIEval 等公開數據集,做了針對性訓練。
過拟合的 A 面,是讓模型在打榜過程中取得了人人都是大模型第一的地位,B 面則是,模型的泛化能力被極大削弱,失去了大模型應有的創造與思考的能力。
大模型落地,苦「第一」久矣。盡管,這已經成爲大模型産業心照不宣的秘密。
那麽,「第一」真的代表更強的能力嗎?所謂的最強大模型真的存在?行業落地,又到底需要怎樣的标準?
或許,前赴後繼的刷榜本質,是獨屬于大模型産業的強者傲慢。
01
最佳大模型的傲慢與偏見
一定程度上,基準測試失真,于大模型而言,表面上看是标準問題,實際上是宣傳問題,本質上則是如何落地的商業模式難題。
Scaling law 的主導下,進入萬億參數時代的大模型強者恒強成爲唯一的生存密碼:根據公開信息披露,僅 GPT4 就有約 1.8 萬億參數,其訓練過程,需要消耗約 2.15e25 FLOPS 算力,更直觀來說,需要約 25,000 個 A100 GPU,馬力全開,訓練足足 100 天。以雲上每個 A100 GPU 每小時 1 美元來算,理想情況下,一次訓練的成本就需要花費至少 6000 萬美元。
與此同時,頭部大模型玩家,平均兩個月左右,就會迎來一次技術或産品的叠代;而形成鮮明對比的是,國内的大模型六小龍,即使如今估值最高的智譜,算上最新一輪融資,其總融資額,也不過 55 億。
一邊是不斷膨脹的參數,不斷增加的成本;一邊是盲盒黑箱式的技術原理,與用戶之間的不斷加深的認知壁壘。如何在這場強者恒強的生存競賽中證明自己的價值,打榜自然也就成了最直觀的捷徑。
但這一切的前提是,大模型落地,真的存在所謂的最強大模型嗎?
答案或許是否定的。
技術落地與研究不同,具體到場景之中,強如 Open AI、谷歌與 Anthropic 也不得不面臨技術、時延和成本之間的不可能三角。因此面對不同需求,往往對應着不同的最優解法:其中 Anthropic 的 Claude 分爲增強版 Sonnet 與輕量版 Haiku;GPT 4o 分爲标準版與 mini 版;谷歌 Gemini 則分爲增強的 Pro 版與嘗鮮的 Flash 版。
而一個違背直覺的數據是,各大模型的增強版與 mini 版,在實際部署中,往往是擁有更低時延與低成本優勢的 mini 版本,會更受歡迎。
即使單純聚焦到技術的單一維度,「最強模型」也同樣是個僞命題。在相對客觀的物理、化學和生物學、數學、天文等科目中,各家大模型評分往往各有千秋;而一旦将視角轉爲寫作、繪畫、視頻生成,那麽如何評定最優大模型,1000 個讀者有 1000 個哈姆萊特。
作爲全球最大的雲服務平台,亞馬遜雲科技,就曾注意到:在亞馬遜雲上,不同開發者往往會關注不同性能,比如,有人會關注更低的延遲、更低的成本,有人更關注模型是否具備微調能力、能更好地協調不同知識庫以固定數據,還有團隊更關注模型的多模态能力,或者知識擴散遷移能力。
也是因此,什麽才是所謂的最強大模型,在一輪輪熱潮中,這個話題被反複讨論、被熱議、被反思,但從來未被解決。
但可以肯定的是,任何單一維度的「第一」「最強」叙事,都是對複雜場景的簡單化。
02
Choice is All You Need
「最強」= 無敵,隻是技術至上者的傲慢,以及對用戶真實需求的偏見,這一點已經在無數行業中被反複證實。
二十一世紀初期,許多經濟學家、産業學家,在觀察了日本一衆曆史優勢産業的發展之後都發現了一個怪狀:
無論電視機,亦或半導體,乃至汽車,日本無疑是「最強」叙事的頂級推崇者,以及最佳實踐案例,但最終的解決卻無一例外,集體走向沒落。
比如,日本的電視,在顯像管時期做到畫質最高,卻在短短幾年被更輕薄的液晶打敗;日本面向大型機時代研發的存儲芯片,一度做到保質期 30 年,卻在消費電子浪潮中被韓國三星質量參差不齊的低價「次品」打敗;日本的汽車,在燃油車時代無疑是最耐用、最保值的代名詞,甚至是新能源時代,也一步到位發展了最清潔的氫能源燃料電池,卻唯獨錯過了近十年來最大的汽車産業變革熱潮——電動化。
爲什麽「強者」最先被淘汰?生物學家給出了解答——日本産業,陷入了加拉帕戈斯陷阱,一個在如加拉帕戈斯群島般單一的環境中進化出的「最佳」,往往在面對複雜的真實場景與需求會顯得格格不入,乃至不堪一擊。
相比「最佳」,行業更需要的是,需求被看見,過程有的選,結果更适合。
就像數據庫領域,即使傳統的 SQL 數據庫已經常年占據統治地位,依然會有各種各樣的 noSQL 數據庫冒出,甚至在 noSQL 數據庫還會區分出圖數據庫、文檔數據庫等不同類型。
AI 框架,也是個最好的例子,TensorFlow 之前,cafe 就足以滿足市場的需求,但此後 TensorFlow 出現,一統天下,然而,沒幾年後,PyTorch 就橫空出現,從學術領域出發逆襲,成爲一代新的框架之王,但與此同時,TensorFlow 以及其他小衆 AI 框架,依舊在工業領域占據相當的市場份額。
套用大模型 er 們的經典句式—— Choice is All You Need。
亞馬遜 CEO Andy Jassy 在不久前的舉辦的一年一度的雲服務 re:Invent 大會上,就分享了這樣一個觀察:
「在亞馬遜内部,所有開發者都有自主選擇的權利,原本以爲大家都會選用 Anthropic 的 Claude 模型,畢竟過去一年多它在全球屬于性能頂尖的模型,确實有很多内部開發者在使用 Claude 模型,但他們也會采用 Llama 模型、Mistral 模型,還會運用自己開發的一些模型,甚至會使用自行研發的模型。」
比如,金融行業更需要内容生成的絕對準确性;大部分企業,則需要在性能與成本之間,做反複的平衡。甚至,同樣是繪畫,在諸如還原山海經之類場景中,大模型幻覺就是産生想象力的最佳禮物;而在繪制寫實風漫畫或人物建模,任何的幻覺都會帶來最終結果的災難性失控。
既然評判的标準五花八門,那麽與其替用戶選擇,不如給足用戶選擇。
03
亞馬遜雲科技的 Choice matters
事實上,讓客戶有的選,是各大公有雲廠商都在宣傳的口号。但何謂有的選,選擇的範圍如何,背後的定義卻往往各有千秋。亞馬遜雲科技無疑是其中,最開放、最激進的一個。
在亞馬遜雲科技,有的選,可以被解讀出三重含義。
第一重,性能還是成本,用戶有的選。
re:Invent 期間,亞馬遜雲科技推出全新發布的自研 Nova 基礎模型,一共包括 Micro、Lite、Pro、Premier 四個版本。其中,可以做到 210 tokens/s 的 Amazon Nova Micro 是純文本模型,主打高效級;其餘三大多模态大模型中,Lite 主打輕量級,Pro 主打平衡,旗艦模型 Amazon Nova Premier,則主要用于應對複雜任務。
第二重,亞馬遜雲科技 or 其他,用戶有的選是最高原則。
相比自研的 Nova 基礎模型,如何支持更多的模型上架亞馬遜雲科技,才是這場大會真正的主角。
通過将電商中的貨架概念用在了雲服務與大模型,亞馬遜雲科技的大模型貨架 Amazon Bedrock 不僅上架自家的 Nova 系列,同時還上線了亞馬遜投資的 Anthropic 的 Claude 系列。
此外,Amazon Bedrock 提供 Meta 的 Llama、AI21 Labs 的 Jurassic、Mistral AI、Technology Innovation Institute 的 Falcon RW 1B 和英偉達 NIM 微服務等 100 多種業内一流的大模型。
不僅是通用大模型,金融領域的 Palmyra-Fin,翻譯明星 Solar Pro,多模态方向的 Stable Diffusion 、音頻生成方向的 Camb.ai,生物學方向的 ESM3 生成式生物學模型,也全部在 Amazon Bedrock 上架。
主打一個從自研到第三方,從文本到多模态,從通用到垂直,隻要用戶需要,Amazon Bedrock 應上盡上。
當然,不隻是有的選,最重要的也就是第三層,亞馬遜雲科技不僅要讓客戶有的選,更能低成本的選。
如果隻是上架第三方模型,那麽行業内大部分公有雲企業都能做到。
但如何避免雲服務企業又做選手又做裁判還當發令員,能夠真正做到不偏心自研産品,以用戶需求爲導向,還需要觀察雲服務公司究竟如何設計用戶選擇的門檻。
首先是定價,如何在亞馬遜雲科技銷售模型,定價由模型提供商自行設置。
與此同時,爲了降低用戶使用大模型的成本以及選擇難度,Amazon Bedrock 還提供了自定義微調和 模型蒸餾 (Model Distillation)功能以及多智能體協作工具(Multi-agent collaboration)、自動推理檢查(Automated Reasoning checks)等功能。
一方面,幫助企業更好的選擇合适的模型,另一方面,加速不同的模型與智能體之間的高效協同。
當然,這種有的選,不止體現在模型側,在算力、數據庫領域同樣如此。
比如,在算力上,亞馬遜雲科技會提供不同層級的 EC2 實例,用戶可以根據自身的計算需求選擇标準服務器或者更強大的 UltraServer,不必受限于單一芯片平台或算力方案。
數據庫方向,亞馬遜雲科技打破 CAP「困境」,推出無服務器分布式 SQL 的數據庫 Amazon Aurora DSQL 以及完全托管的無服務器 NoSQL 數據庫 Amazon DynamoDB global tables,尊重客戶真正的需求。
從模型到算力再到數據庫,一切決策的最高原則都是「Choice matters」,讓用戶去自由決策。
04
尾聲
在經濟學中,有一個有趣的悖論叫古德哈特定律。
其提出背景是,一旦我們過度關注乃至管理一個經濟指标時,往往會爲了達成這一指标而扭曲真實目的,以至于犧牲其他方面的利益,以至于指标本身失效。
AI 領域同理,當參數與性能變成唯一指标,其強大的扭曲力場會讓真實的用戶需求被忽略。
盡管,用 AI 替代客服所以更關注成本,用 AI 幫助手殘畫出想要的畫面所以更關注多模态能力,用 AI 幫助企業完成質檢優化所以更關注效率這樣無數的細小變革,才是 AI 改變世界的真正組成。
而在這一過程中,用戶的真實需求被看見,被尊重,有選擇,正是一切進步發生的基礎。