OpenAI" 雙 12" 直播第二天,依舊簡短精悍,主題:
新功能強化微調(Reinforcement Fine-Tuning),使用極少訓練數據即在特定領域輕松地創建專家模型。
少到什麽程度呢?最低幾十個例子就可以。
CEO 奧特曼表示 " 效果一級棒,是我 2024 年最大的驚喜,期待看到人們構建什麽!"
那麽效果有多棒呢?
微調後的 o1-mini 模型得分提高 80%,直接反超 o1 正式版。
目前 OpenAI 已開啓強化微調研究計劃,開發者可以申請強化微調 API 的 alpha 版本訪問權限。
進行測試時,可使用幾十到幾千個高質量數據,模型能夠通過強化學習自行探索和學習如何推理複雜任務。
蹲守直播間的網友們聽得也是 one 愣 one 愣的,完全沒有料想到今晚 " 聖誕盲盒 " 是醬嬸兒的。
OpenAI 員工 Jerry Tworek 則表示"AGI 不是授人以魚,而是授人以漁 "。
OpenAI 微調首次支持強化學習
直播嘉賓除了 Mark Chen、John Allard、Julie Wang 三位 OpenAI 自家研究員,還有伯克利實驗室計算生物學家 Justin Reese,他們共同演示了強化微調功能的全過程。
具體來說,這是一個生物醫學任務,AI 需要根據病例描述的症狀,找出相關基因。
訓練數據長這樣:
病人信息:51 歲女性,疾病發病時間未具體說明。
症狀:眼距過寬、睑裂狹小、小颌畸形、軟腭咽閉合不全、甲狀旁腺功能減退、全身發育遲緩和感覺神經性聽力障礙
未表現出以下症狀:腭裂、法洛四聯症、肺動脈瓣閉鎖、心房隔缺損、主動脈肺動脈側支血管
請列出所有可能導緻這些症狀的基因,從可能性最大到可能性最小,并解釋爲什麽你認爲這些特定的基因可能是原因。
評分模型(Grader)會對模型的答案進行評分,OpenAI 會提供不同的評分模型,并支持自定義。
強化微調步驟很簡單,在網頁界面可選擇訓練集和驗證集。
再根據情況配置超參數即可。
微調過程中,可以觀察模型性能指标的變化趨勢。
測試完成後,也可以查看模型對每條驗證數據的輸出,這裏 TSC2 基因是正确答案,模型把它排在第一位,所以通過。
目前 OpenAI 内部測試中,強化微調在生物化學、安全、法律和醫療保健領域取得成功。
強化微調将在 2025 年初作爲産品發布,對企業、大學和研究院已開放申請測試通道。
看完這場直播後,有人總結:強化微調可能并不适合所有任務,但會在科學領域帶來突破性的成果。
奧特曼默認會發 Sora
OpenAI 直播第二天,對比第一天 o1 正式發布、立等可用,似乎平淡了一些。
有不滿足的網友表示:where is GPT-4.5?
評論區猜測可能大貨會放在最後一天。
他們是真的懂如何吊所有人的胃口
不過,有網友釣魚釣出了奧特曼,且奧特曼沒有否認會發布 Sora 的消息。
參考鏈接:
[ 1 ] https://openai.com/form/rft-research-program/