關注o1必備GitHub倉庫，上線3天狂攬1.5k星！英偉達工程師出品，承諾持續更新

關注 o1 必備的 GitHub 庫，它來了！

上線3 天狂攬1.5k 星，一躍登上 GitHub 趨勢榜！

這個庫專注于收集與 o1 相關的推理技術論文、博客和項目等資源，供大家研究讨論，并在持續更新中。

網友們對它給予高度評價：

科技大 V 說它是" 拆解草莓的逆向工程 "。

也有網友直接提出表揚：" 研究 o1，看它就夠了！"

真有這麽牛？咱們一起來看看到底怎麽個事兒！

幹貨滿滿

在這個名爲Awesome-LLM-Strawberry的 GitHub 庫中，涵蓋了大量關于 o1 的信息。

量子位爲大家整理了一下迄今爲止發布的相關硬核内容：

關于 o1 的博客

博客：Learning to Reason with LLMs

作者：OpenAI

鏈接：https://openai.com/index/learning-to-reason-with-llms/

概述：這篇博客介紹了 OpenAI o1 的訓練方法，其中包括鏈式推理、自我批評、驗證、多步驟推理、任務分解和蒙特卡洛樹搜索等技術。

博客：OpenAI o1-mini

作者：OpenAI

鏈接：https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

概述：介紹了o1 mini模型在推理成本和效率方面的改進，在保持高推理性能的同時，顯著降低了計算和運行成本。

博客：Finding GPT-4 ’ s mistakes with GPT-4

作者：OpenAI

鏈接：https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

概述：讨論了如何利用 GPT-4 模型自身來發現和修正生成的錯誤。文章中提到的 " 自我審查方法 " 通過雙重評估提高了錯誤檢測的準确性，從而讓模型輸出的内容變得更加可靠。（文章發表時，已有 OpenAI 超級對齊團隊成員離職，因此也被稱爲團隊的 " 遺作 "）

博客：Summary of what we have learned during AMA hour with the OpenAI o1 team

作者：Tibor Blaho

鏈接：https://twitter-thread.com/t/1834686946846597281

：https://x.com/btibor91/status/1834686946846597281

概述：這篇博客總結了 OpenAI 團隊在 AMA（問答環節）中分享的關于 o1 模型的主要内容和特性。

其中包括：模型的推理範式以及規模和性能、輸入 token 上下文和模型能力、CoT（思維鏈）推理、API 和使用限制、定價、微調和擴展等内容。

博客：OpenAI ’ s Strawberry, LM self-talk, inference scaling laws, and spending more on inference

作者：Nathan Lambert

鏈接：https://www.interconnects.ai/p/openai-strawberry-and-inference-scaling-laws

概述：文章探讨了 OpenAI 的新活 "Strawberry" 以及推理擴展定律，強調了推理計算在提升 AI 能力方面的重要性。而相較于單純擴大模型規模，作者認爲增加推理計算的投入能更有效地提高模型性能。（具有前瞻性的一篇博客，文章發布的時候 o1 還沒發布）

博客：Reverse engineering OpenAI ’ s o1

作者：Nathan Lambert

鏈接：https://www.interconnects.ai/p/reverse-engineering-openai-o1

概述：文章詳細講了 OpenAI 的 o1 模型，重點在于它的推理能力。o1 通過生成複雜的思維鏈來處理複雜任務，比以前的模型表現更出色。

還讨論了 o1 的設計和訓練細節，特别是它如何通過優化數據處理和算法來提高推理效率。同時指出，相比單純增加模型規模，提升推理計算投入對提升模型性能更有效。

OpenAI o1 貢獻者參與撰寫的論文

論文：Training Verifiers to Solve Math Word Problems

作者：Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, John Schulman

團隊：OpenAI

鏈接：https://arxiv.org/abs/2110.14168

概述：發布于 2021 年 10 月，文中指出雖然當前的先進語言模型在很多任務上表現很強，但它們在解決複雜的數學題時仍然遇到困難。爲了解決這個問題，作者創建了一個叫 GSM8K 的數據集，其中包含 8500 個不同的小學數學題。

研究發現，即使是大規模的 Transformer 模型在這些題目上也表現不佳。爲了提升表現，作者建議使用一個驗證器來檢查模型答案的準确性。

具體做法是讓模型生成多個答案，然後選擇驗證器評分最高的答案。而這種方法顯著提高了模型在 GSM8K 數據集上的表現，比傳統的調整方法效果更好。

論文：Generative Language Modeling for Automated Theorem Proving

作者：Stanislas Polu, Ilya Sutskever

團隊：OpenAI

鏈接：https://arxiv.org/abs/2009.03393

概述：發布于 2020 年 9 月，探讨了基于 Transformer 的語言模型如何在自動定理證明中發揮作用。

研究的核心問題是，自動定理證明器在生成原創數學術語方面比不上人類，而這可能通過語言模型的生成能力得到解決。

作者介紹了一種叫做 GPT-f 的自動證明工具，用于 Metamath 形式化語言，并分析了它的效果。GPT-f 成功發現了一些新短證明，這些證明被 Metamath 主要庫接受，這是深度學習系統首次爲形式數學社區提供并被采納的證明。

論文：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

作者：Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

團隊：Google Research, Brain Team（谷歌大腦 )

鏈接：https://arxiv.org/pdf/2201.11903

概述：發布于 2022 年 1 月，文章讨論了如何通過生成一系列中間推理步驟（思維鏈）來大幅提升大型語言模型的複雜推理能力。

作者提出了一種叫做 " 思維鏈提示 " 的方法，具體做法是在提示中給出一些思維鏈的示例，幫助模型進行更深入的推理。最終實驗結果顯示，它在三個大型語言模型上都顯著提高了它們在算術、常識和符号推理任務中的表現。

論文：Let ’ s Verify Step by Step

作者：Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe

團隊：OpenAI

鏈接：https://arxiv.org/abs/2305.20050

概述：發布于 2023 年 5 月，文章讨論了大型語言模型在複雜多步推理任務中的表現。

作者比較了兩種訓練方法：一種隻關注最終結果，另一種關注每一步推理。結果顯示，關注每一步推理的方法更有效，能在 MATH 數據集上提高到 78% 的成功率。

文中還強調了主動學習在提升訓練效果中的重要性，并發布了一個包含 80 萬個步驟級反饋的 PRM800K 數據集，用于訓練最佳模型。

論文：LLM Critics Help Catch LLM Bugs

作者：Nat McAleese, Rai Michael Pokorny, Juan Felipe Ceron Uribe, Evgenia Nitishinskaya, Maja Trebacz, Jan Leike

團隊：OpenAI

鏈接：https://arxiv.org/abs/2407.00215

概述：發布于 2024 年 6 月，文中介紹了用 " 批評者 "（CriticGPT）模型來提升機器學習模型輸出的評估。

這些批評者模型能更有效地發現代碼中的錯誤，甚至能找到人類可能忽略的問題。盡管這些模型有時會出錯，但與人類結合使用可以減少誤導，同時提高錯誤檢測的效率。

論文：Self-critiquing models for assisting human evaluators

作者：William Saunders, Catherine Yeh, Jeff Wu, Steven Bills, Long Ouyang, Jonathan Ward, Jan Leike

團隊：OpenAI

鏈接：https://arxiv.org/pdf/2206.05802

概述：發布于 2022 年 6 月，文中介紹了一種方法，通過微調大型語言模型，讓它們生成批評性評論，從而幫助找出摘要中的問題。

研究發現，這些評論可以有效識别摘要中的錯誤，包括有意誤導的信息。大模型在生成有用評論和自我改進方面表現更好。

同時論文還提出了一個框架來評估模型的批評、生成和辨别能力，并指出即使是大型模型也可能有遺漏的知識。研究展示了如何用 AI 輔助人類改進機器學習系統，并公開了相關數據和樣本。

論文：Scalable Online Planning via Reinforcement Learning Fine-Tuning

作者：Arnaud Fickinger, Hengyuan Hu, Brandon Amos, Stuart Russell, Noam Brown

團隊：Facebook AI

鏈接：https://arxiv.org/pdf/2109.15316

概述：文章介紹了一種新方法來改進圖神經網絡（GNN）的訓練，特别是針對 " 圖卷積 " 操作中的效率問題。

作者提出了一種名爲 "FastGCN" 的算法，旨在提高圖神經網絡的計算速度和縮放能力。通過在訓練過程中進行近似和優化，這種方法能夠處理更大規模的圖數據，從而在圖數據分析任務中取得更好的性能。

除此之外，作者還按照時間順序梳理了一些可能與 o1 相關的其他相關論文：

2024 年發布：

2023 年發布：

2022 年發布：

2021 年發布：

2017 年發布：

關于作者

Awesome-LLM-Strawberry的作者是 ID 叫做hijkzzz的中國小哥。

目前在英偉達任深度學習工程師。

他是OpenRLHF 的第一作者，在英偉達期間開發 TensorRT-LLM 的新模型和算法，還參與了 NeMo 的模型訓練。

參考鏈接：

[ 1 ] https://github.com/hijkzzz/Awesome-LLM-Strawberry

[ 2 ] https://github.com/hijkzzz?tab=overview&from=2024-09-01&to=2024-09-18

[ 3 ] https://x.com/IntuitMachine/status/1835476301291139395

[ 4 ] https://x.com/burny_tech/status/1836112182804910224

— 完 —

量子位年度 AI 主題策劃正在征集中！

歡迎投稿專題 一千零一個 AI 應用，365 行 AI 落地方案

或與我們分享你在尋找的 AI 産品，或發現的AI 新動向

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~