o1基石論文火爆傳閱，Ilya仍是關鍵先生！核心項目清北校友閃光 - 青年圖摘

自從Ilya Sutskever的名字出現在 OpenAI o1 背後團隊名單中，他在 o1 中發揮了哪些作用，一時間成爲不少網友的關注焦點。

這不，機器學習工程師 Rohan Paul 剛剛發帖表示，去年 5 月份 Ilya 合著的一篇論文不能錯過。

論文題爲 "Let ’ s Verify Step by Step（一步步來驗證）"。

不光是 Ilya，其中還有不少作者同樣是 OpenAI o1 的背後貢獻者。

甚至有網友将這篇論文稱作是 AI 領域僅次于 "Attention is all you need" 的第二著名論文。

除此之外，在關于 OpenAI o1 背後團隊的熱議中，OpenAI 科學家 Noam Brown 最近發帖澄清并沒有主導草莓 /OpenAI o1。

但同時也透露 o1 項目是一個多年研究的成果，從去年 10 月開始真正加速發展。

這麽來看，Ilya Sutskever 會是 OpenAI o1 的 " 基礎貢獻者 " 也就更不令人意外了。

接下來深入看看 "Let ’ s Verify Step by Step" 這篇論文以及 OpenAI o1 背後的貢獻者。

Ilya 在 o1 的作用

OpenAI o1 主打進行通用複雜推理，在輸出回答之前，會在産生一個很長的思維鏈，以此增強模型能力。

而 Ilya 此前合著的這篇論文主要就是探讨了提高大語言模型多步推理能力的方法。

他們主要比較了結果監督（outcome supervision）和過程監督（process supervision）兩種方法在訓練獎勵模型上的效果。

結果監督側重于模型最終輸出的正确性。

而過程監督則關注模型在推理過程中每一步的正确性，能夠指出答案中具體哪一步是錯的：

團隊使用 GPT-4 基礎模型，在 MATH 數據集上進行了實驗。

由于過程監督沒有簡單的自動化方法，所以隻能依靠人工數據标注者來标記模型生成解決方案中每個步驟的正确性。

他們收集了大量人類反饋數據，創建了 PRM800K 數據集，包含 80 萬個步級标簽。

實驗分爲大規模和小規模兩種體制，各有優勢并提供不同視角。

研究結果發現：過程監督顯著優于結果監督，能夠訓練出更可靠的獎勵模型。

使用過程監督訓練的最佳模型在 MATH 測試集具有代表性的子集上解決了78.2%的問題，明顯優于結果監督模型（72.4%）和多數投票基線（69.6%）。

研究還證明了大型獎勵模型能夠可靠地近似人類監督對較小獎勵模型的效果，并且能夠高效地進行大規模數據收集的消融分析。

主動學習（active learning）還可以顯著提高過程監督的數據效率，大約提升了 2.6 倍。

團隊還讨論了過程監督的幾個關鍵優勢。

首先，它提供了更精确的反饋，使得功勞歸因更加容易。其次，在 AI 對齊方面，過程監督更有可能産生可解釋的推理。

爲了評估模型的泛化能力，團隊還在 AP 物理、AP 微積分、AP 化學和 AMC 考試題目上進行了測試。

結果顯示，過程監督訓練的模型在這些新問題上仍然表現優異，證明了其對适度分布偏移的魯棒性。

大模型飛速發展一年後的今天，再來看這篇論文，有學者指出現在來看沒有太多新的想法：

關鍵 idea 就是過程獎勵模型，它可以單獨評估每個步驟或 token，而不僅是最終結果。

但也正如網友所說，這篇論文總歸來說是邁向 OpenAI o1 的一步。

o1 則代表了 " 從記憶答案到記憶推理的範式轉變 "。

清北校友 o1-mini 主要負責人

除了 Ilya Sutskever，關于 o1 背後團隊也引發了不少關注。

官網給出的全名單，分成了推理研究和推理技術安全兩塊。粗略一看已經遠遠超一百人。（好多人啊，GIF）

咱們主要看看研究這塊。

基礎貢獻者：21 人；Leadership：7 人；

核心貢獻者：46 人；

貢獻者：82 人；

項目經理：2 人；

執行領導：8 人；

支持領導：8 人。

在基礎貢獻者中我們也看到了不少熟悉的影子以及華人面孔。

Jason Wei，OpenAI 研究員，此前曾在谷歌大腦工作，他是思維鏈的提出者，也曾參與大模型湧現能力以及 GPT-4 的研究。

Shengjia Zhao，本科畢業于清華，随後前往斯坦福攻讀博士學位，22 年畢業之後就來到 OpenAI。個人介紹中顯示，熱衷于訓練大模型，他是 ChatGPT、GPT-4、GPT-4o mini 的核心作者之一。

任泓宇，2018 年畢業于北京大學，随後來到斯坦福攻讀計算機博士學位，當時方向就是大語言模型。加入 OpenAI 之前曾在微軟英偉達谷歌蘋果這些科技巨頭待過。他是 GPT-4o 的核心貢獻者，GPT-4o mini 的領導者，主要教模型如何更快、更努力、更敏銳的思考。

當模型第一時間發布時，他曾表示 o1-mini 是他最喜歡的一款模型。

以上這兩位清華北大校友，應該是 o1-mini 的主要負責人沒跑了。

Francis Song，本博分别畢業于耶魯和哈佛，曾在 NYU 擔任助理研究員，方向是計算神經科學。在 DeepMind 待了四年後，22 年來到了 OpenAI。

Wenda Zhou，本科畢業于劍橋大學，在哥倫比亞大學獲得博士學位，來到 OpenAI 之前曾在 Simons/NYU 當研究院，去年加入 OpenAI。

Kevin Yu，畢業于 UC 伯克利，曾就職于 NASA。

在 Leadership 裏還有位華人面孔。

Mark Chen，目前是 OpenAI（前沿）研究副總裁。曾就讀于 MIT 數學與計算機科學專業，曾在 Integral Technology 擔任量化研究合夥人。

最後，也附上全體名單。

△推理研究

△推理技術安全奧特曼：已掌握未來幾年主動權

話說回來，前兩天奧特曼又去接受公開采訪了，聊了聊最新的這個模型。

他表示 o1 模型雖然能在 IOI、IMO 這樣的競賽中取得優異成績，但重點不應該放在 AI 擅長考試這一點上。而是它能幫助研究人員，比如更快發現新材料、找到治療疾病的方法等等。

這是個新範式的開始，非常早期但非常重要。

談到未來的願景，他提到，未來将有兩種基本商品，那就是是智慧和能源——擁有創意的能力，完成智力工作的能力，以及能源，即在世界上實現這些目标的能力。

至于大模型進展，他表示不僅沒有放緩，而且已經掌握了未來幾年的主動權。

參考鏈接：

[ 1 ] https://arxiv.org/abs/2305.20050 [ 2 ] https://openai.com/openai-o1-contributions/

[ 3 ] https://x.com/rohanpaul_ai/status/1835427161370738983?s=46&t=iTysI4vQLQqCNJjSmBODPw

[ 3 ] https://x.com/EarningsNugget/status/1834800151598453085