ChatGPT 産品打造的細節,現在 OpenAI 自己交了個底。
并且這波幹貨分享真是信息量滿滿,包括但不限于:
ChatGPT 背後的産品和研發團隊如何協作
大模型應用如何從原型走向成熟
OpenAI 如何優化大模型性能
……
以上信息,依然來自今年的新晉 " 科技春晚 " ——OpenAI 開發者日。
除了奧特曼驚豔全球的開幕演講,當天還有更多分組讨論,視頻也陸續被官方上傳到了油管。
而這也算得上是之前,其團隊 " 内幕 " 的一次展示。
值得借鑒學習之處,我們已經整理好筆記,一起來看 ~
産品與研究團隊合作 " 前所未有 "
把時間拉回到 2022 年 10 月,OpenAI 的研究團隊和産品團隊開始圍繞一個 idea 進行讨論:爲他們的基礎大模型,制作一個對話界面。
彼時還處在 ChatGPT 的早期階段,但研究團隊和産品團隊的緊密協作已然開始,它們之間相互的影響程度更是獨樹一幟。
或許這種團隊合作模式,可以成爲其他公司參考借鑒的樣本。
用 OpenAI 模型行爲産品負責人 Joanne Jang 的話說:
在 OpenAI,研究團隊和産品團隊之間的相互影響,在業内已經達到了前所未有的程度。
ChatGPT 本身,就是最明顯的例子。
OpenAI Post-Training 團隊負責人 Barret Zoph 和 Joanne 共同分享了兩支團隊在 ChatGPT 開發和完善過程中的一些協作細節。
Barret 團隊的主要職責,是在模型能力被加入到 ChatGPT 和 API 之前,對其進行調整。具體來說,ChatGPT 後期增加的聯網、分析文件等功能,都是由 Post-Training 團隊負責的。
Barret 重點提到的是,正是産品團隊的種種設計,讓研究團隊能夠及時 get 到什麽樣的模型響應,對于現實世界中的用戶和開發人員是真正有用的。
比如 ChatGPT 的點贊點踩按鈕,就給研究本身帶來了很多價值:
我們可以根據這樣的反饋調整正在做的事情,了解哪些工作做得好,哪些做得不好,這樣一來,我們就能讓模型響應越來越适合用戶。
在研究中,我們通常用離線評估指标和基準去衡量模型的進展,但有時候這并非人們真正使用模型的方式。産品團隊的幫助,使得我們能夠确保自己正走在構建通用、強大系統的方向上。
而站在産品團隊的角度,Joanne 同樣認爲,OpenAI 産品經理扮演的角色有獨特之處:
首先,在 OpenAI 做産品的目标不是收入、參與度、增長等傳統産品指标,而是打造造福全人類的通用人工智能。
其次,OpenAI 的産品經理往往是從技術而非用戶問題的角度出發,去設計産品功能的。
最後,OpenAI 研究團隊和産品團隊相互影響的程度非常之高,在業内可以說達到了前所未有的程度。
還是以 ChatGPT 誕生的過程爲例。從 GPT-3,到 InstructGPT,再到 ChatGPT,研究團隊發現,直接在多輪對話上訓練模型,能讓教導模型新的行爲這件事變得更加有效。
而具體教導(設計)模型行爲的工作,就是靠産品團隊來參與完成的:比如說,當用戶告訴 ChatGPT" 你現在是一隻貓 ",ChatGPT 應該表現出怎樣的默認行爲?
産品團隊對此進行了大量的實驗,以找出适合大多數用戶的默認模式。
(p.s. 不過 Joanne 也提到,對于用戶而言,最好的模型是個性化的模型,這也是他們對未來大模型發展方向的預判之一。)
非線性策略優化大模型性能
講完協同 " 内幕 ",再來看技術細節。
在開發者日上,OpenAI 的技術人員分享了 GPT-4 中使用的大模型優化技術。
劃重點就是,采用非線性策略,具體包括兩個維度和四個象限。
OpenAI 提出了一個多層次的非線性優化框架,涉及到了提示工程、搜索增強生成(RAG)和微調這三種技術。
傳統的模型優化方式往往以線性方式運用這三項技術,在 OpenAI 看來這種模式無法解決 " 真正需要解決的問題 "。
OpenAI 認爲,大模型表現優化分爲兩個維度,一個是其本身的表現,一個是上下文。
根據這兩個維度需求程度的不同,就形成了四個象限。
具體來說,這兩個優化方向的起點都是提示工程,但接下來要用 RAG 還是微調(或兩者兼用)則需要根據實際情況來選擇。
通過詳細比較這三項技術各自的優勢,OpenAI 的兩名技術人員分别做了具體解釋。
首先是提示工程,它被看作大模型優化的起始點,通過設計提示詞來增強模型性能,可以測試和快速叠代。
具體的策略包括,将提示詞設計得更清晰、将複雜任務拆解,以及提供示例文本或調用外部工具等。
但對于讓模型學習新信息,或者複刻一種複雜的方法(如學習新的編程語言),則超出了提示工程的能力範疇。
此外,任務的細化也會帶來 token 的增加,所以提示工程對于減少 token 消耗來說也是不利的。
RAG 和微調解決的問題則存在一些相似之處,二者的主要區别在于,RAG 更适用于讓模型從給定信息中獲取答案(短期記憶),而微調的重點是模型的長期記憶。
RAG 的核心優勢是利用知識庫爲模型提供上下文信息,從而減少模型幻覺。
但是這種知識信息通常局限于十分具體的領域,但對于寬泛的領域(如 " 法律 "" 醫學 " 等)作用并不明顯。
同時,提供大量上下文信息會帶來比提示工程更多的 token 消耗,對節約 token 同樣不利。
此外,過度應用 RAG 也有可能帶來反效果,比如有用戶要求 GPT 隻利用文檔中的信息,然後發現模型出現了 " 幻覺 "。
但事後分析發現,這并非是模型的幻覺現象,而是用戶提供的信息本身就存在錯誤。
而微調則是通過在小數據集上訓練模型,來提高性能和效率,或者修改輸出結構。
相比 RAG,微調更側重于強調模型已有的知識,并提供複雜的任務指導,對于學習新知識或叠代到新用例則不是好的選擇。
總結下來就是,基于這些策略的特點和使用領域,根據實際需求有的放矢地選擇優化策略。
這也是 OpenAI 調教 GPT-4 的法寶,具體到應用層面,OpenAI 也爲一衆創業者獻上了一份大禮。
爲創業者送上 " 大禮包 "
OpenAI 工程負責人和 Applied 團隊成員分享了如何将基于 OpenAI 模型搭建的應用從原型走向完整産品。
如果你也有興趣基于 OpenAI 的 API 搞一些應用創新,以下是官方分享的一些工程實踐經驗:
第一,打造以人爲本的用戶體驗,即減少模型不确定性,增強模型的安全性和可控性。
第二,提供一緻性體驗。比如利用知識庫等工具來減少模型的不一緻性。工程師們提到,OpenAI 通過控制 seed 來控制結果的可重現性,并且提供了當前系統的 " 指紋 " 來代表整個系統的狀态。
第三,重視性能評估。并且 OpenAI 發現,用大模型來代替人工進行性能評估效果顯著。
第四,管理延遲和成本。主要策略有兩種:首先是加入語義緩存,來減少真實 API 的訪問;其次是使用更便宜的模型,比如不直接使用 GPT-4,而是用 GPT-4 的輸出來微調 GPT-3.5 Turbo。
而具體到産品更新,新版 API 也值得關注,OpenAI 的廣告詞是可以 " 在開發的應用中直接構建世界級的助手 "。
新版 API 支持調用代碼解釋器和外部知識,OpenAI 的 API 工程主管 Michelle 進行了現場演示。
此外,在函數(第三方 API)調用方面也進行了改進,新增了 JSON 輸出模式,并允許同時調用多個函數。
One More Thing
順便提一嘴,開發者大會的開幕式上,OpenAI 現場給每個人發放了 500 美元的賬戶餘額,讓線下觀衆紛紛投來羨慕的目光。
不過實際上他們隻賺了 50,因爲還要花 450 美元買門票。
按照最新的定價,50 美元可以通過 API 處理 500 萬輸入 token 或 166.6 萬輸出 token。
那麽,今日份的幹貨筆記就分享到這裏了,想了解更多詳細内容,可以到官方回放中一睹爲快。