作者:趙雨荷
來源:硬 AI
邁向超級智能系統的 AI 實驗室正意識到,可能需要改換道路。分析指出,相比傳統的堆砌計算能力和數據的訓練方法,被稱爲 " 測試時計算 "(Test-time Compute)的新方法更有助于提高 AI 模型的預測能力。
據 TechCrunch 報道,多位 AI 投資者、創始人和 CEO 透露,近年來 AI 實驗室用于提升模型能力的 "AI 擴展定律 "(AI scaling laws)正顯示出邊際收益遞減的迹象。他們的觀點與近期的報告一緻,這些報告表明頂尖 AI 實驗室中的模型提升速度已不如以往。
現在,幾乎所有人都開始承認,僅通過增加計算能力和數據量來預訓練大型語言模型,并指望其變成某種全知全能模型的道路,是行不通的。這也許聽起來顯而易見,但擴展定律曾是開發 ChatGPT、提升其性能的關鍵因素,也可能影響了許多 CEO 大膽預測通用人工智能(AGI)将在幾年内到來的信心。
OpenAI 和 Safe Super Intelligence 的聯合創始人 Ilya Sutskever 上周對媒體表示," 所有人都在尋找擴展 AI 模型的新方式 "。本月早些時候,Andreessen Horowitz 聯合創始人 Marc Andreessen 在一檔播客中提到,當前 AI 模型似乎都趨向于能力的上限。
不過,有 AI 領域的 CEO、研究人員和投資者已經開始宣稱,行業正進入擴展定律的新紀元:" 測試時計算 "(Test-time Compute)被認爲是一項特别有前景的新方法,能夠讓 AI 模型在回答問題前,有更多時間和計算資源進行 " 思考 "。
" 我們正看到一種新擴展定律的出現," 微軟 CEO 納德拉(Satya Nadella)周二在微軟 Ignite 大會上說,他指的是支持 OpenAI o1 模型的測試時計算研究。
此外,Andreessen Horowitz 合夥人、Mistral 的董事會成員、曾是 Anthropic 天使投資人的 Anjney Midha 在接受媒體采訪時表示," 我們現在正處于擴展定律的第二紀元,也就是測試時擴展。"
AI 擴展定律失效?
自 2020 年以來,OpenAI、谷歌、Meta 和 Anthropic 等公司取得的 AI 模型快速進步,主要歸功于一個關鍵判斷:在 AI 模型的預訓練階段使用更多的計算資源和數據。
在這一階段,AI 通過分析大量數據集中的模式來識别和存儲信息。當研究人員爲機器學習系統提供充足的資源時,模型通常在預測下一個詞或短語方面表現更好。
第一代 AI 擴展定律讓工程師通過增加 GPU 的數量和數據量來提升模型性能。盡管這種方法可能已經達到瓶頸,但它已經改變了整個行業的版圖。幾乎每家大型科技公司都押注 AI,而爲這些公司提供 GPU 的英偉達如今已成爲全球市值最高的上市公司。
然而,這些投資是基于擴展能夠持續發展的預期而做出的。畢竟,擴展定律并不是自然、物理、數學或政府制定的法律,它并未被任何人或事物保證會以相同的速度繼續下去。即便是著名的摩爾定律,也在運行了較長時間後逐漸失效。
Anyscale 聯合創始人、前 CEO Robert Nishihara 在對媒體表示,
" 如果你隻投入更多的計算資源和數據,模型越做越大,回報會逐漸遞減,要維持擴展定律的運行并保持進步的速度,我們需要新思路。"
" 當你已經閱讀了 100 萬條 Yelp 評論,再讀更多評論可能不會帶來太大增益,但那是預訓練。關于後訓練的方法還相對不成熟,還有很大的改進空間。"
盡管如此,AI 模型開發者可能仍會繼續追求更大的計算集群和更大的數據集進行預訓練,而這些方法可能仍有一定的提升空間。例如,馬斯克最近完成了一台擁有 10 萬 GPU 的超級計算機 Colossus,用于訓練 xAI 的下一代模型。
但趨勢表明,僅通過現有策略使用更多 GPU 無法實現指數級增長,因此新的方法開始獲得更多關注。
測試時計算:AI 行業的下一大賭注
當 OpenAI 發布其 o1 模型的預覽版時,就宣布這屬于獨立于 GPT 的新系列模型。
OpenAI 主要通過傳統的擴展定律(即在預訓練階段使用更多數據和更多計算能力)改進了其 GPT 模型。但據稱,這種方法現在的增益已不再顯著。o1 模型框架依賴于一個新概念——測試時計算(test-time compute),之所以這樣命名,是因爲計算資源是在接收到提示後(而不是之前)才使用的。分析認爲,這種技術在神經網絡背景下的探索還不多,但已經表現出潛力。
一些人已經将測試時計算視爲擴展 AI 系統的下一種方法。
Andreessen Horowitz 的 Midha 表示,
許多實驗表明,即使 " 預訓練 " 的擴展定律可能正在放緩," 測試時 " 擴展定律——即在推理過程中爲模型提供更多計算資源——仍然可以顯著提升性能。
著名 AI 研究員 Yoshua Bengio 則表示,
"OpenAI 的新‘ o 系列’進一步推動了 [ 連貫思維 ] ,需要更多計算資源,也因此需要更多能源,我們因此看到了一種新的計算擴展形式:不僅僅是更多的訓練數據和更大的模型,還包括花費更多時間‘思考’答案。"
例如,在 10 到 30 秒的時間裏,OpenAI 的 o1 模型會多次重新提示自己,将一個複雜的問題分解爲一系列更小的問題。現負責 OpenAI o1 工作的 Noam Brown 嘗試開發可以擊敗人類的撲克 AI 系統,在最近的一次演講中,Brown 表示,他注意到人類撲克玩家在出牌前會花時間考慮不同的情景。2017 年,他引入了一種方法,讓模型在出牌前 " 思考 "30 秒。在此期間,AI 會模拟不同的子遊戲,推演不同場景可能的結果以确定最佳行動。最終,這種 AI 的預測表現比他以前的方法提升了 7 倍。
需要注意的是,Brown 在 2017 年的研究并未使用神經網絡,因爲當時它們尚未普及。然而,上周麻省理工學院的研究人員發表了一篇論文,表明測試時計算顯著提高了 AI 模型在推理任務上的表現。
目前尚不清楚測試時計算如何大規模推廣。這可能意味着 AI 系統在解決難題時需要非常長的 " 思考 " 時間,可能是數小時甚至數天。另一種方法可能是讓 AI 模型同時在許多芯片上 " 思考 " 問題。
Midha 表示,如果測試時計算成爲擴展 AI 系統的下一步,對專注于高速推理的 AI 芯片的需求可能會大幅增加,這對 Groq 或 Cerebras 等專注于快速 AI 推理芯片的初創公司來說是好消息。如果找到答案與訓練模型同樣需要大量計算資源,那麽 AI 領域的 " 挖掘工具 " 提供商将再次受益。
無論 AI 研究的前沿情況如何,用戶可能在一段時間内感受不到這些變化的影響。不過,AI 開放商将不遺餘力地繼續快速推出更大、更智能、更快的模型,這意味着多家領先的科技公司可能會調整其推動 AI 邊界的方法。
本文來自微信公衆号 " 硬 AI",關注更多 AI 前沿資訊請移步這裏
>