發布不到 1 周,OpenAI 最強模型 o1 的護城河已經沒有了。
有人發現,谷歌 DeepMind 一篇發表在 8 月的論文,揭示原理和 o1 的工作方式幾乎一緻。
這項研究表明,增加測試時(test-time)計算比擴展模型參數更有效。
基于論文提出的計算最優(compute-optimal)測試時計算擴展策略,規模較小的基礎模型在一些任務上可以超越一個14 倍大的模型。
網友表示:
這幾乎就是 o1 的原理啊。
衆所周知,奧特曼喜歡領先于谷歌,所以這才是 o1 搶先發 preview 版的原因?
有人由此感慨:
确實正如谷歌自己所說的,沒有人護城河,也永遠不會有人有護城河。
就在剛剛,OpenAI 将 o1-mini 的速度提高 7 倍,每天都能使用 50 條;o1-preview 則提到每周 50 條。
計算量節省 4 倍
谷歌 DeepMind 這篇論文的題目是:優化 LLM 測試時計算比擴大模型參數規模更高效。
研究團隊從人類的思考模式延伸,既然人面對複雜問題時會用更長時間思考改善決策,那麽 LLM 是不是也能如此?
換言之,面對一個複雜任務時,是否能讓 LLM 更有效利用測試時的額外計算以提高準确性。
此前一些研究已經論證,這個方向确實可行,不過效果比較有限。
因此該研究想要探明,在使用比較少的額外推理計算時,就能能讓模型性能提升多少?
他們設計了一組實驗,使用 PaLM2-S* 在 MATH 數據集上測試。
主要分析了兩種方法:
(1)叠代自我修訂:讓模型多次嘗試回答一個問題,在每次嘗試後進行修訂以得到更好的回答。
(2)搜索:在這種方法中,模型生成多個候選答案,
可以看到,使用自我修訂方法時,随着測試時計算量增加,标準最佳 N 策略(Best-of-N)與計算最優擴展策略之間的差距逐漸擴大。
使用搜索方法,計算最優擴展策略在初期表現出比較明顯優勢。并在一定情況下,達到與最佳 N 策略相同效果,計算量僅爲其 1/4。
在與預訓練計算相當的 FLOPs 匹配評估中,對比 PaLM 2-S*(使用計算最優策略)一個 14 倍大的預訓練模型(不進行額外推理)。
結果發現,使用自我修訂方法時,當推理 tokns 遠小于預訓練 tokens 時,使用測試時計算策略的效果比預訓練效果更好。但是當比率增加,或者在更難的問題上,還是預訓練的效果更好。
也就是說,在兩種情況下,根據不同測試時計算擴展方法是否有效,關鍵在于提示的難度。
研究還進一步比較不同的 PRM 搜索方法,結果顯示前向搜索(最右)需要更多的計算量。
在計算量較少的情況下,使用計算最優策略最多可節省 4 倍資源。
對比 OpenAI 的 o1 模型,這篇研究幾乎是給出了相同的結論。
o1 模型學會完善自己的思維過程,嘗試不同的策略,并認識到自己的錯誤。并且随着更多的強化學習(訓練時計算)和更多的思考時間(測試時計算),o1 的性能持續提高。
不過 OpenAI 更快一步發布了模型,而谷歌這邊使用了 PaLM2,在 Gemini2 上還沒有更新的發布。
網友:護城河隻剩下硬件了?
這樣的新發現不免讓人想到去年谷歌内部文件裏提出的觀點:
我們沒有護城河,OpenAI 也沒有。開源模型可以打敗 ChatGPT。
如今來看,各家研究速度都很快,誰也不能确保自己始終領先。
唯一的護城河,或許是硬件。
(所以馬斯克哐哐建算力中心?)
有人表示,現在英偉達直接掌控誰能擁有更多算力。那麽如果谷歌 / 微軟開發出了效果更好的定制芯片,情況又會如何呢?
值得一提的是,前段時間,将采用台積電最先進的 A16 埃米級工藝,專爲 Sora 視頻應用打造。
顯然,大模型戰場,隻是卷模型本身已經不夠了。
參考鏈接:
https://www.reddit.com/r/singularity/comments/1fhx8ny/deepmind_understands_strawberry_there_is_no_moat/