文 | 騰訊科技 郝博陽
在 OpenAI 開發者日前夕,WiFi 公司 Meter 的天使投資者兼産品負責人 Nikunj Kothari 在 X 上寫道:" 自最初的 iPhone 時代以來,從未見過這麽多開發者興奮地談論即将推出的産品。"
毫無疑問,這場 OpenAI 第一次的開發者大會受關注的程度直指科技春晚蘋果秋季發布會,說是 AI 界春晚毫不爲過。
大會剛開始,Sam Altman 就列出了一串數字,表明 OpenAI 目前擁有 200 多萬開發人員,包括 92% 以上的财富 500 強公司用戶,以及一億周活用戶。這些官方數字直接證僞了自去年 11 月發布以來,ChatGPT 的熱度正在逐漸消退的相關報道。
在秀完肌肉後,Sam Altman 即刻端上了一道足以改變行業的大餐,以及一封争奪 AI 應用分發權的戰書。
頭盤:GPT4 Turbo
開場就是重頭戲。Sam Altman 在簡單講述完 GPT 版本更新曆史後,就放出了他們最強大模型 GPT-4 的 Turbo 升級版本。他稱其 " 更強大,也更便宜 "。而且從今天開始,純文本的模型可以通過 API 預覽,OpenAI 表示計劃在 " 未來幾周 " 内全面提供包括多模态版本的 GPT4-Turbo。
GPT4-Turbo 的 " 更強大 " 體現在它的六大升級上。包擴上下文長度提升,模型控制,更好的知識,新的多模态能力,模型自定義能力及更低的價格,更高的使用上限。
對于一般用戶體驗來講,上下文長度的增加,更好的知識和新的多模态能力是最核心的體驗改善。
1)上下文長度升級:這在過往是 GPT4 的一個軟肋。它會決定與模型對話過程中能接收和記住的文本長度。如果上下文長度限制較小,面對比較長的文本或長期的對話,模型就會經常 " 忘記 " 最近對話的内容,并開始偏離主題。GPT4 基礎版本僅提供了 8k token(字符)的上下文記憶能力,最近提供的拓展能力也僅僅能達到 32k token,相比于主要競品 Anthropic 旗下 Claude 2 提供 100k token 的能力差距明顯。這使得 GPT4 在做文章總結等需要長文本輸入的操作時常常力不從心。但這次 GPT-4 Turbo 直接提供了一個 128k token 的上下文能力擴充,是 GPT-4 擴容版本的 4 倍,一舉提供了已商用大模型中最大的上下文容量,反超 Claude 2。更形象的形容一下,128 萬個 token 約 10 萬字或 300 頁書,可供參考的長度約爲《呼嘯山莊》、《格列佛遊記》和《哈利波特與阿茲卡班的囚徒》的長度。
2)更好的知識更新:GPT4-Turbo 終于把知識庫更新到了 2023 年 4 月,不再讓我們停留在 2 年前的過去了。最初版本的 GPT4 的網絡實時信息調用隻能到 2021 年 9 月。雖然随着後續插件的開放,GPT4 也可以獲得最新發生的事件知識。但相較于融彙在模型訓練裏的知識而言,這類附加信息因爲調用插件耗時久,缺乏内生相關知識的原因,效果并不理想。而現在,至少你可以獲得截止到今年四月前的新信息,獲取到很準确的答案了。
3)新的多模态能力:主要是指部分用戶已經體驗到的 Dalle3 文生圖功能,文本到語音(TTS)即最近被各路展示的語音對話功能,以及整合了這些的 GPT4Turbo with Vison 多模态功能,可以識别圖片和語音輸入并産出對應的生成内容。這些都不是全新的功能,但他們的 API 在活動當日就全部開放給了開發者,這意味着後續會有更多的應用,網站能把這些功能整合進日常運作中。
針對這些多模态功能的 API 使用,其定價也與純文字的 Token 定價不同,目前 Vison 的定價取決于輸入圖像的大小。例如,将 1080×1080 像素的圖像傳遞給 GPT-4 Turbo 需要 0.00765 美元。 Dalle3 根據不同格式和質量選項,生成每張圖像的起價爲 0.04 美元。而 TTS 能力的接入價格從每輸入 1000 個字符 0.015 美元起。
在宣布多模态 API 開放的同時,Sam 也提到了 Whisper V3 将會在近日發布,GPT 家族的語音識别能力又可以大幅提升。
對于開發者和程序員們而言,另外兩個升級更加重要。
4)更高的控制性:爲實現對模型産出内容更高的控制性,GPT Turbo 提供了三個方面的升級。
一是函數調用更新,在技術文檔中,OpenAI 解釋稱,函數調用允許用戶向模型描述應用程序或外部 API 的函數,并讓模型智能地選擇輸出包含參數的 JSON 對象來調用這些函數,以達到使用外部程序能力的作用。而且過往的函數調用,一次交互隻能調用一個函數,即一個外部能力。但在 GPT4 -Turbo 中,一條指令可以平行調用多個操作,使得與外部應用結合的複雜功能實現變得更容易。
二是改進了指令跟随,現在 GPT4 Turbo 能更好的理解限制性指令了。在需要仔細遵循指令的任務上,例如生成特定格式(例如," 始終以 XML 響應 ")表現更佳。它甚至還提供新的 "JSON 模式 ",它确保模型能生成語法正确的 JSON 對象,不正确的語法則直接被否定掉不執行。這在傳輸數據的網絡應用程序中很有用。
三是可再現輸出,過往大語言模型經常出現的一個問題是同一個問題的答案,問上幾次可能都會結果不同。爲了保持模型的一緻性,GPT4-Turbo 可以通過種子參數讓大模型的回應變得統一且可重複。
這一部分的升級實際上爲後續 GPT-4 Turbo 的自定義可能和 AI 智能體化( AI Agent)提供了堅實的基礎。隻有在調用外部工具變得更簡單,更穩定的前提下,AI 才能更好地進行使用多工具完成複雜任務的工作。而這正是當下智能體所需要的。
5)模型自定義能力:在今年 8 月 22 日,OpenAI 剛剛上線可微調的 GPT3.5 Turbo 版本,兩個月後 GPT4 的可微調版本 Turbo 也來了,這意味着開發者終于可以在 GPT4 的基礎上進行定制化調試訓練了。但這個工作似乎并不容易,OpenAI 在博客文章中寫道:" 初步結果表明,與 GPT-3.5 微調實現的實質性收益相比,GPT-4 微調需要更多的工作來實現對基本模型的有意義的改進。"
針對這個困難,OpenAI 提供了一個 Plus 版本的微調,即自定義模型。針對于那些需要比微調更多定制的組織(特别适用于擁有超大專有數據集的領域——至少有數十億個 token),OpenAI 給出内部工程師協助訓練模型,走完全程,從進行額外的特定領域的預訓練,到運行爲特定領域量身定制的自定義 RL 後訓練過程。當然,OpenAI 表示這個機會不會太多,而且非常貴。
6)加量降價:最後一個大升級就是大降價。OpenAI 表示,GPT-4 Turbo 對開發人員來說運行成本更低。與 GPT-4 上的 0.03 美元相比,每 1000 個代币(LLM 讀取的基本文本或代碼單位)的輸入成本僅爲 0.01 美元。每個輸出成本爲每 1000 個令牌 0.03 美元。總體而言,新版 GPT-4-Tubo 比原始版本便宜 2.75 倍。而開放給 API 的 token 吞吐量也提升了一整倍。
Sam Altman 在開發者的歡呼聲之後表示,不光價格降了,同時 GPT4 Turbo 的速度也會大幅提升。今天一過,AI 開發者集體降本增效了。
英偉達工程師 Jim Fan 對此表示,OpenAI 規模效應帶來的價格優勢太可怕了。
沙拉:納德拉上台,鞏固聯盟關系
上完了頭盤硬菜,Sam Altman 邀請微軟 CEO 納德拉上場站台。一番簡單寒暄過後,Sam 詢問納德拉:微軟現在如何看待與 OpenAI 的合作關系?納德拉笑了大概 3 秒鍾才回應:我很愛你們,能和你們合作感覺很夢幻。但講到具體的合作時候,他更強調微軟當前的首要任務是要讓 Azure 更好的支持 " 包括你們模型在内 " 的大語言模型的訓練和基礎設施建設,讓開發者能更好的使用到 AI 帶來的技術革新。
(3 秒鍾的笑,納德拉的出乎意料)
針對 Sam 關于 AI 的未來會如何發展的第二個問題,納德拉依然是返躬自省。他強調微軟自認爲是個平台公司,軟件開發公司和合作商公司,後續的目标就是要提升算力和服務,支持自己和其他開發者利用大模型賦能機構和個人。不愧是公關大師,一套話術對兩個問題。
整個對話過程略顯尴尬,本來是爲了強調合作關系的對話溝通卻始終彌漫着一種距離感。而且整段對話的基調都是 OpenAI 大步前沖,微軟自甘做個支持角色,多少有點适得其反。
正餐:GPTs,助手 API 及應用商店
如果說 GPT4 Turbo 的更新是個硬菜,它也就是個較硬的前菜。因爲它的很多升級都是爲 GPTs 這道主菜做引子。這才是這場發布會的主角。
GPTs
GPTs 不是 GPT 的任何一個版本,而是屬于你的定制的 GPT,一個能實現各種具體目的的智能體。
OpenAI 提供了一個構建 GPTs 的工具,GPT Builder,它包含三個功能,指令、擴展知識和行動。有了這幾個功能,能完成任務而非僅僅對話的智能體就可以輕松被構建出來。而且通過自然語言就可以完成全流程。
在示範如何構建一個屬于 Sam Altman 個人的定制 GPT,幫助他爲别人提供創業指導的過程中,這三個功能都被展現得很明确。
指令部分即一步步下達指令構建 GPTs。你說個 GPT 的應用目标,GPT Builder 會幫你生成 GPT 名字,再生成 logo(profile picture)。之後 GPT Builder 會通過詢問具體限制,相關資料,逐步完善指令流程,最終完成應用構建。你根本不用規劃流程,它會用問題引導你。這一切都可以用你的母語完成。
如果你對引導的結果還不滿意,還可以在設置中直接進行調節。
通過 " 知識擴展 " 部分,用戶可以直接上傳自定義數據,如 DevDay 事件時間表。
用戶還可以選擇是否調用模型模型能力,使 GPT 能訪問網頁浏覽、DALL-E 和 OpenAI 的代碼解釋器工具,用于編寫和執行軟件。
(在創建 GPTs 的工具 GPT Builder 頁面中,依次從上到下展示的功能是指令,擴展知識及模型能力開關及行動功能。)
最後通過另一個名爲 Actions 的功能,OpenAI 允許 GPTs 調用函數,連接到外部服務,即訪問電子郵件、數據庫等數據,以完成複雜的工作組合。比如在後面的演示中出現的,回答用戶關于旅遊地點信息的詢問時,調用谷歌地圖或機票信息。
通過已有的幾個 GPTs,Sam 還演示了 GPTs 具體定制化後會有什麽不同的能力。
如 Code.org 的編程課教師,就可以多用比喻的手法讓學習者更好地理解抽象的編程邏輯。
CanavaGPT 可以直接連接到外部的 Canava(一個海報生成網站),來幫助你根據需求生成相關網站。
你所建立或訂閱的所有 GPTs 都會在 GPT 主界面的左邊欄中與 ChatGPT 并列存在,可見 OpenAI 對此功能所給予的重視及優先級。
當然這優先級是完全合理的。有着最新的模型接口,且将開發定制化智能體變得如此簡潔的 GPTs,對于如 AUtoGPT,Langchain 之類過往提供基于 AI 的開發 App 的軟件平台來講,就是降維打擊。而滿足各種調用功能的小型插件更是完全沒有了生存價值。對此,業内早有評價,稱 OpenAI 每次發布産品升級,都會直接幹掉一大批初創公司。
(來自投資人的痛訴:插件已死)
這項 GPT 創建功能将在晚些提供給付費的 ChatGPT Plus 用戶和 OpenAI 企業客戶,他們可以爲員工制作僅限内部的 GPTs。
助手 API
針對有着更複雜需求的開發者或公司,OpenAI 還提供了一個 GPT Builder 的升級版本,即助手 API。
相較于普通 GPT,助理 API 有更長的上下文能力,還可以利用檢索組件,補充更多外部知識,并在内部進行檢索,連建庫都不需要,上傳就行。它還支持更強大的函數調用,使助手能夠調用開發人員定義的編程函數,并将響應包含在消息中。
應用商店
那我們如何應用這些已建好的 GPT?OpenAI 直接給出了一個 GPT 商店,它是這些 GPT 的分發平台。與之前的插件商店不同,GPT 應用商店的意義更爲重大。
從這個商店的界面看,用戶可以直接訂閱各種 GPTs。因此可以把它理解成一個承載着諸多 AI 小程序的集合體。而如果它成功地構建起了一套應用生态的話,OpenAI 也會變成一個真正的應用平台,一個 AI 時代的産品分發入口。而它的封閉性(裏面隻有基于 OpenAI 的模型開發的應用),也讓它多少有了些 AI 時代 App Store 的壟斷味道。
但這個地位并非隻有 OpenAI 觊觎。各個大廠,包括微軟和蘋果都有自己的基于軟件的應用市場。想在這裏面再建個獨立的小市場,壟斷 AI 的應用紅利,這很難不在後面引發和現在應用分發巨鳄們的深度沖突。
爲了更快地達到這一目标,OpenAI 也爲 GPTs 應用開發者設定了完整的分成邏輯。Sam Altman 表示," 本月晚些時候,我們将推出 GPT 商店,以經過驗證的建設者的創作爲特色。一旦進入商店,GPT 就會變得可搜索,并可能在排行榜上攀升。我們還将重點關注我們在生産力、教育和 " 隻是爲了好玩 " 等類别中遇到的最有用、最令人愉快的 GPT。在接下來的幾個月裏,你還可以根據有多少人使用你的 GPT 來賺錢。"
雖然這場 AI 春晚震撼到了很多人,但還是有一個人不太爲之所動。馬斯克在看完發布會後發了條推繼續支持自家模型 Grok,然後就去打暗黑四了。