o1核心作者MIT演講：激勵AI自我學習，比試圖教會AI每一項任務更重要

"o1 發布後，一個新的範式産生了 "。

其中關鍵，OpenAI 研究科學家、o1 核心貢獻者Hyung Won Chung，剛剛就此分享了他在 MIT 的一次演講。

演講主題爲 "Don ’ t teach. Incentivize（不要教，要激勵），核心觀點是：

激勵 AI 自我學習比試圖教會 AI 每一項具體任務更重要

思維鏈作者 Jason Wei迅速趕來打 call：

Hyung Won 識别新範式并完全放棄任何沉沒成本的能力給我留下了深刻的印象。

2022 年底，他意識到了強化學習的力量，并從那時起就一直在宣揚它。

在演講中，Hyung Won 還分享了：

技術人員過于關注問題解決本身，但更重要的是發現重大問題；

硬件進步呈指數級增長，軟件和算法需要跟上；

當前存在一個誤區，即人們正在試圖讓 AI 學會像人類一樣思考；

" 僅僅擴展規模 " 往往在長期内更有效；

……

下面奉上演講主要内容。

對待 AI：授人以魚不如授人以漁

先簡單介紹下Hyung Won Chung，從公布的 o1 背後人員名單來看，他屬于推理研究的基礎貢獻者。

資料顯示，他是 MIT 博士（方向爲可再生能源和能源系統），去年 2 月加入 OpenAI 擔任研究科學家。

加入 OpenAI 之前，他在Google Brain負責大語言模型的預訓練、指令微調、推理、多語言、訓練基礎設施等。

在谷歌工作期間，曾以一作身份，發表了關于模型微調的論文。（思維鏈作者 Jason Wei 同爲一作）

回到正題。在 MIT 的演講中，他首先提到：

通往 AGI 唯一可行的方法是激勵模型，使通用技能出現。

在他看來，AI 領域正處于一次範式轉變，即從傳統的直接教授技能轉向激勵模型自我學習和發展通用技能。

理由也很直觀，AGI 所包含的技能太多了，無法一一學習。（主打以不變應萬變）

具體咋激勵呢？？

他以下一個 token 預測爲例，說明了這種弱激勵結構如何通過大規模多任務學習，鼓勵模型學習解決數萬億個任務的通用技能，而不是單獨解決每個任務。

他觀察到：

如果嘗試以盡可能少的努力解決數十個任務，那麽單獨模式識别每個任務可能是最簡單的；

如果嘗試解決數萬億個任務，通過學習通用技能（例如語言、推理等）可能會更容易解決它們。

對此他打了個比方，" 授人以魚不如授人以漁 "，用一種基于激勵的方法來解決任務。

Teach him the taste of fish and make him hungry.（教 AI 嘗嘗魚的味道，讓他餓一下）

然後 AI 就會自己出去釣魚，在此過程中，AI 将學習其他技能，例如耐心、學習閱讀天氣、了解魚等。

其中一些技能是通用的，可以應用于其他任務。

面對這一 " 循循善誘 " 的過程，也許有人認爲還不如直接教來得快。

但在 Hyung Won 看來：

對于人類來說确實如此，但是對于機器來說，我們可以提供更多的計算來縮短時間。

換句話說，面對有限的時間，人類也許還要在專家 or 通才之間做選擇，但對于機器來說，算力就能出奇迹。

他又舉例說明，《龍珠》裏有一個設定：在特殊訓練場所，角色能在外界感覺隻是一天的時間内獲得一年的修煉效果。

對于機器來說，這個感知差值要高得多。

因此，具有更多計算能力的強大通才通常比專家更擅長特殊領域。

原因也衆所周知，大型通用模型能夠通過大規模的訓練和學習，快速适應和掌握新的任務和領域，而不需要從頭開始訓練。

他還補充道，數據顯示計算能力大約每 5 年提高 10 倍。

總結下來，Hyung Won 認爲核心在于：

模型的可擴展性

算力對加速模型進化至關重要

此外，他還認爲當前存在一個誤區，即人們正在試圖讓 AI 學會像人類一樣思考。

但問題是，我們并不知道自己在神經元層面是如何思考的。

機器應該有更多的自主性來選擇如何學習，而不是被限制在人類理解的數學語言和結構中。

在他看來，一個系統或算法過于依賴人爲設定的規則和結構，那麽它可能難以适應新的、未預見的情況或數據。

造成的結果就是，面對更大規模或更複雜的問題時，其擴展能力将會受限。

回顧 AI 過去 70 年的發展，他總結道：

AI 的進步與減少人爲結構、增加數據和計算能力息息相關。

與此同時，面對當前人們對 scaling Law 的質疑，即認爲僅僅擴大計算規模可能被認爲不夠科學或有趣。

Hyung Won 的看法是：

在擴展一個系統或模型的過程中，我們需要找出那些阻礙擴展的假設或限制條件。

舉個例子，在機器學習中，一個模型可能在小數據集上表現良好，但是當數據量增加時，模型的性能可能會下降，或者訓練時間會變得不可接受。

這時，可能需要改進算法，優化數據處理流程，或者改變模型結構，以适應更大的數據量和更複雜的任務。

也就是說，一旦識别出瓶頸，就需要通過創新和改進來替換這些假設，以便模型或系統能夠在更大的規模上有效運行。

訓練 VS 推理：效果相似，推理成本卻便宜 1000 億倍

除了上述，o1 另一核心作者Noam Brown也分享了一個觀點：

訓練和推理對模型性能提升作用相似，但後者成本更低，便宜 1000 億倍。

這意味着，在模型開發過程中，訓練階段的資源消耗非常巨大，而實際使用模型進行推理時的成本則相對較低。

有人認爲這凸顯了未來模型優化的潛力。

不過也有人對此持懷疑态度，認爲二者壓根沒法拿來對比。

這是一個奇怪的比較。一個是邊際成本，另一個是固定成本。這就像說實體店比其中出售的商品貴 500000 倍

對此，你怎麽看？

Hyung Won Chung 演講 PPT：

https://docs.google.com/presentation/d/1nnjXIuN2XDJENAOaKXI5srQscO3276svvP6JgivTv6w/edit#slide=id.g2d1161c9c52_0_20

參考鏈接：

[ 1 ] https://x.com/hwchung27/status/1836842717302943774

[ 2 ] https://x.com/tsarnick/status/1836215965912289306