OpenAI強化微調登場：幾十條數據o1-mini反超o1暴漲80%，奧特曼：今年最大驚喜

OpenAI" 雙 12" 直播第二天，依舊簡短精悍，主題：

新功能強化微調（Reinforcement Fine-Tuning），使用極少訓練數據即在特定領域輕松地創建專家模型。

少到什麽程度呢？最低幾十個例子就可以。

CEO 奧特曼表示 " 效果一級棒，是我 2024 年最大的驚喜，期待看到人們構建什麽！"

那麽效果有多棒呢？

微調後的 o1-mini 模型得分提高 80%，直接反超 o1 正式版。

目前 OpenAI 已開啓強化微調研究計劃，開發者可以申請強化微調 API 的 alpha 版本訪問權限。

進行測試時，可使用幾十到幾千個高質量數據，模型能夠通過強化學習自行探索和學習如何推理複雜任務。

蹲守直播間的網友們聽得也是 one 愣 one 愣的，完全沒有料想到今晚 " 聖誕盲盒 " 是醬嬸兒的。

OpenAI 員工 Jerry Tworek 則表示"AGI 不是授人以魚，而是授人以漁 "。

OpenAI 微調首次支持強化學習

直播嘉賓除了 Mark Chen、John Allard、Julie Wang 三位 OpenAI 自家研究員，還有伯克利實驗室計算生物學家 Justin Reese，他們共同演示了強化微調功能的全過程。

具體來說，這是一個生物醫學任務，AI 需要根據病例描述的症狀，找出相關基因。

訓練數據長這樣：

病人信息：51 歲女性，疾病發病時間未具體說明。

症狀：眼距過寬、睑裂狹小、小颌畸形、軟腭咽閉合不全、甲狀旁腺功能減退、全身發育遲緩和感覺神經性聽力障礙

未表現出以下症狀：腭裂、法洛四聯症、肺動脈瓣閉鎖、心房隔缺損、主動脈肺動脈側支血管

請列出所有可能導緻這些症狀的基因，從可能性最大到可能性最小，并解釋爲什麽你認爲這些特定的基因可能是原因。

評分模型（Grader）會對模型的答案進行評分，OpenAI 會提供不同的評分模型，并支持自定義。

強化微調步驟很簡單，在網頁界面可選擇訓練集和驗證集。

再根據情況配置超參數即可。

微調過程中，可以觀察模型性能指标的變化趨勢。

測試完成後，也可以查看模型對每條驗證數據的輸出，這裏 TSC2 基因是正确答案，模型把它排在第一位，所以通過。

目前 OpenAI 内部測試中，強化微調在生物化學、安全、法律和醫療保健領域取得成功。

強化微調将在 2025 年初作爲産品發布，對企業、大學和研究院已開放申請測試通道。

看完這場直播後，有人總結：強化微調可能并不适合所有任務，但會在科學領域帶來突破性的成果。

奧特曼默認會發 Sora

OpenAI 直播第二天，對比第一天 o1 正式發布、立等可用，似乎平淡了一些。

有不滿足的網友表示：where is GPT-4.5？

評論區猜測可能大貨會放在最後一天。

他們是真的懂如何吊所有人的胃口

不過，有網友釣魚釣出了奧特曼，且奧特曼沒有否認會發布 Sora 的消息。

參考鏈接：

[ 1 ] https://openai.com/form/rft-research-program/