2 小時内,Claude 和 o1 就能超過人類專家平均科研水平。
甚至 AI 還會偷摸兒 " 作弊 "(doge)。事情是這樣的——
人類 VS AI科研能力大比拼,也有新的評估基準了。
代号 "RE-Bench",由非營利研究機構 METR 推出,目的是搞清:當前 AI 智能體在自動化科研方面有多接近人類專家水平。
注意看,一聲令下之後,AI 和 50 多位人類專家開始暗自較勁:
前 2 小時,基于 Claude 3.5 Sonnet 和 o1-preview 構建的 Agent(智能體)表現遠超人類。
但拐點過後,AI 能力增速(在 8 小時内)卻始終追不上人類。
時間拉得更長(至 32 小時)之後,研究得出結論,目前 AI 智能體更适合并行處理大量獨立短實驗。
看完上述結果,知名預測師 Eli Lifland 認爲這" 顯著縮短 "了他關于 AGI 的時間表(連續兩年将 2027 年作爲中位數),由此也在 Reddit 引起熱議。
上也有人表示,AI 自動搞科研可能對推動爆炸性經濟增長至關重要。
甚至有人腦洞大開,開始美滋滋暢想躺着賺錢的生活 ( doge ) :
以後 AI 智能體來做科研,然後雇一群人類寫代碼……
AI 更适合大量并行短時間任務,長期科研還得靠人類
在 RE-Bench 上,研究對比了基于大語言模型構建的 Agent(目前主要公布了 Claude 3.5 Sonnet、o1-preview)和 50+ 人類專家的科研能力。
值得注意的是,這些專家都有強大機器學習背景,其中很多人在頂級行業實驗室或機器學習博士項目中工作。
一番 PK 後,研究得出了以下主要結論:
2 小時内,Claude 和 o1 表現遠超人類專家。但随着時間增加,人類專家的能力提升更顯著;
在提交新解決方案的速度上,AI 是人類專家的十倍以上,且偶爾能找到非常成功的解決方案;
在編寫高效 GPU 内核方面,AI 表現超越所有人類;
AI 的運行成本遠低于人類專家;
……
總之一句話,不僅 AI 和人類各有所長,且不同 AI 都有自己最佳的科研節奏。
人類更适應更複雜、更長時間的科研,AI 更适應大量并行短任務。
回到研究起點,METR 之所以提出 RE-Bench 主要是發現:雖然很多政府和公司都在強調,AI 智能體能否自動研發是一項關鍵能力。但問題是:
現有的評估往往側重于短期、狹窄的任務,并且缺乏與人類專家的直接比較。
因此,RE-Bench 想做的事兒,就是全面評估 AI 科研所需的技能。本次研究一共提出了7 項:
高效編程:特别是在優化算法和内核函數(如 GPU 内核)方面;
機器學習理論與實踐:熟悉機器學習模型的訓練、調優和評估,包括神經網絡架構、超參數選擇和性能優化;
數據處理與分析;
創新思維:能夠在面對複雜問題時提出新的方法和策略,以及跨領域思考;
技術設計:能夠設計和實現複雜的系統和解決方案,包括軟件架構和研究流程;
問題解決;
自動化與工具開發:能夠開發和使用自動化工具來加速研究流程;
這些任務被設計在≤ 8 小時内,以便人類專家可以使用合理的計算資源完成,從而實現人類與 AI 的直接比較。
而且主辦方特意提醒,要想獲得高分,就必須最大化利用計算資源來完成這些複雜任務。
通常來說,RE-Bench 的運行機制如下:
首先,7 項任務都是一個獨立的評估環境,各自都有一個清晰的目标,比如優化一個 GPU 内核或者調整一個機器學習模型的超參數。
爲了确保任務的可比性,每個環境都提供了一個參考解決方案,這個解決方案是有效的,但效率較低,爲 Agent 和人類專家提供了一個基準點。
AI 和人類專家都可以訪問這些環境,并且都有權限使用所需的計算資源,如 GPU。
然後,AI 通過自然語言處理和編程能力來執行任務,而人類專家則通過編碼和實驗來完成任務。
執行結束後,每個環境都有一個評分函數,用于衡量 Agent 或人類專家提交的解決方案的效果。
當然,評分函數會根據解決方案的性能給出一個數值得分,這個得分随後會被歸一化,以便于在不同環境之間進行比較。
需要注意,過程中還涉及時間預算分配(time budget)。實際情況是,人類專家通常被分配 8 小時來完成任務,而 AI 則根據實驗設計在不同的時間限制下進行評估。
舉個例子,對 AI 來說,8 小時的預算可以用于一次 8 小時的嘗試,也可以分成 16 次、每次 30 分鍾的嘗試。
最後,由于在任務執行過程中,研究會收集 AI 和人類專家的解決方案日志,以及它們的得分記錄。因此最終将根據這些記錄來評估不同參與者的進步和表現。
實驗結果顯示,在 2 小時内,基于 Claude 3.5 Sonnet 和 o1-preview 構建的智能體表現遠超人類。
更具體來看,如果不取多次運行中的最佳結果(每個單獨繪制 8 小時運行),AI 最初比人類進步更快,但提高分數的速度較慢。
擴大時間線來看,整體上人類專家在較少的長時間嘗試中表現更佳,而 AI 則從大量并行、獨立的短時間嘗試中受益。
令人印象深刻的是,盡管大多數 AI 隻能輕微改進參考解決方案,但一個 o1-preview 智能體在優化 Triton 内核運行時間的任務中超越了人類專家的最佳解決方案。
與此同時,評估過程中甚至發現了 AI 存在" 作弊 " 行爲。例如,o1-preview 智能體在應該減少訓練腳本運行時間的任務中,編寫了隻是複制最終輸出的代碼。
來自非營利研究機構 METR
以上這項新的基準出自 METR,作爲一家非營利研究機構,他們主要通過實證測試評估可能對社會造成災難性危害的 AI 系統。
目前,RE-Bench 隻包含 7 項任務,基準的劣勢也很明顯:
而且還伴随着一個老生常談的問題:
一旦 7 項任務公開,如何防止基準測試數據污染問題?
對此,METR 特别提出了幾項措施,來避免将這些任務包含在 LLM 訓練數據中,并防止過拟合。
用戶應避免發布未受保護的解決方案,以減少過拟合的風險;
用戶不應将評估材料提供給可能用于訓練的 API 或服務;
評估材料不應用于訓練或提高前沿模型的能力,除非是爲了開發或實施危險能力評估;
更多細節歡迎查閱原論文。
論文:
https://metr.org/AI_R_D_Evaluation_Report.pdf
博客:
https://metr.org/blog/2024-11-22-evaluating-r-d-capabilities-of-llms/
GitHub:
https://github.com/METR/ai-rd-tasks/tree/main
實驗詳細記錄:
https://transcripts.metr.org/
參考鏈接:
[ 1 ] https://twitter.com/METR_Evals/status/1860061711849652378
[ 2 ] https://www.reddit.com/r/singularity/comments/1gxzslg/top_forecaster_significantly_shortens_his/