Day 2。
就在剛剛,OpenAI 年底的 AI 春晚迎來了第二彈。
如果說昨天的 ChatGPT Pro 訂閱計劃震撼了普通用戶的錢包,那麽今天推出的産品則轉向了不同的目标客戶群體——企業機構和開發者。
早在直播活動開始前,負責模型微調的 OpenAI 研究員 Steven Heidel 就表示,雖然今天發布的産品可能不适用于所有人,但對于一部分人來說,它将具有重大意義。
OpenAI CEO Sam Altman 則在 X 平台發文稱:
這種效果非常好;它成爲了我 2024 年最大的驚喜之一。我非常期待看到人們會創造出什麽!
X 網友已經給我們敲好黑闆,劃重點了:
強化微調(RFT)将于明年推出,專門針對 o1 模型。
通過利用強化微調(RFT)優化 o1 模型在專業領域的推理能力。
強化微調(RFT)通過僅需少量示例即可高效适應,優于傳統的微調方法。
具體而言,OpenAI 今天推出了一個強化微調(Reinforcement Fine-Tuning)研究計劃。
該計劃允許開發人員利用大量的高質量任務(從數十到數千個)來訓練模型,并依據提供的标準答案來評估模型的回答。
這種方法不僅可以增強模型在處理相似問題時的邏輯推理能力,還能顯著提升模型在特定領域任務中的精确度。
直播過程中,OpenAI 還特地邀請了一位來自勞倫斯伯克利國家實驗室的研究員 Justin Reese,他也向我們展示了這項技術成果目前在實際應用過程中的作用。
作爲計算生物學家,Justin 的主要研究領域是罕見遺傳疾病。
據他介紹,全球大約有 3 億人患有罕見疾病,但問題是,評估罕見疾病比較困難,因爲這通常需要具備兩方面的知識:
一是必須具備醫學領域的專家級知識,二是必須對生物醫學數據進行系統性的推理。
通過與德國 Charite 醫院等機構合作,Justin Reese 研究團隊從數百篇罕見疾病病例報告中提取關鍵信息,然後使用 OpenAI 微調模型來更有效地推理出疾病的成因。
在直播過程中,OpenAI 研究人員也向我們使用強化微調優化模型的完整流程。
團隊會使用經過精心準備的數據集對模型進行強化微調。 數據集中每個樣例包含病例報告、觀察到的和缺失的症狀列表,以及模型需預測的目标基因。
模型需要根據給定的症狀信息對潛在緻病基因進行優先級排序,預測結果中正确基因的排名越靠前,得分就越高。
微調過程還會通過一個 graders(評分器)來衡量模型表現。評分器通過将模型輸出與标準答案進行對比,給出 0 到 1 之間的評分,用于量化模型在驗證集上的表現。
經過微調的模型在該複雜遺傳疾病相關基因預測任務上的表現大幅提高,證明了強化微調在生物信息和基因疾病診斷領域的潛力。
另外,OpenAI 也宣布強化微調 API 的 Alpha 的訪問權限明年将開放給更多組織使用,尤其是那些解決複雜任務的研究組織,比如法律、保險、醫療和金融等領域。
附上申請地址:https://openai.com/form/rft-research-program/
與昨日相呼應,本次直播依然以一個充滿聖誕節日氣氛的笑話收尾:
你們知道,我們住在舊金山。自動駕駛車輛非常流行。事實上,聖誕老人也在嘗試這個。他想制造一輛自動駕駛的雪橇,但不知道爲什麽,他的模型總是不能識别樹木,導緻雪橇左撞右撞,樹木撞得一塌糊塗。你們有猜到爲什麽嗎?因爲他沒有爲模型提供 Pi。
值得注意的是,最近風投公司 Menlo Ventures 最近深入調研了 600 名美國企業 IT 決策者,深入披露了目前 AI 産業的最新趨勢。
在這份被視爲業界風向标的報告中,有一組數據格外引人注目。
報道顯示,OpenAI 的企業市場份額從 50% 跌至 34%,大批企業棄用 GPT-4 轉投 Claude 3.5 Sonnet。基于此,Anthropic 則趁勢崛起,市場占有率從 12% 暴漲至 24%。
可以說,市場份額是企業對 AI 技術最誠實的評分。但回合制較量的故事尚未結束,今天祭出的強化微調 API 有望再次點燃市場對 OpenAI 的關注度。
而就在 OpenAI 發布會召開前,Google 推出的新模型 gemini-exp-1206 在大模型競技場 LMSYS Chatboat Arena 中再次登頂,力壓 OpenAI 的 GPT-4o-1120。
與此同時,Meta 淩晨推出的 Llama 3.3 70B 模型也以成本更低的方式,實現了媲美 Llama 3.1 405B 的性能。
就這幾天發布的新品而言,網絡上褒貶不一。有人說失望,有人說驚喜,但無論如何,AI 的價值不在于模型有多複雜,而在于能解決什麽實際問題。 最好的評判标準永遠是親自上手體驗。
本文來自微信公衆号 "APPSO",作者:發現明日産品的,36 氪經授權發布。