出品|虎嗅科技組
作者|齊健
編輯|陳伊凡
頭圖|電影《華爾街之狼》
GPT-4 就是沖着賺錢來的!
北京時間 3 月 15 日淩晨,OpenAI 正式官宣了大模型 GPT-4 。
在驚豔到出圈的 ChatGPT 推出後僅僅 4 個月,OpenAI 再推新品。這似乎正在印證此前傳出的 "OpenAI 計劃 2023 年營收 2 億美元,2024 年底前營收達 10 億美元 " 的目标。限制盈利機構 OpenAI 要開始用大模型賺錢了。
目前官宣的 GPT-4 能力與此前傳說的基本相似,主要提升了語言模型方面的能力,并添加了 " 多模态 " 的圖片識别功能。
此外,GPT-4 将 " 單詞最大輸出限制 " 提高到了 25000 個單詞,比基于 GPT-3 的 ChatGPT 更強大,在對問題的理解和回答方面,GPT-4 也顯得更聰明,更像人了。
目前,ChatGPT Plus 版本的用戶已經可以直接在原來的 ChatGPT 基礎之上,選擇 GPT-4 模型,直接體驗。不過,目前 GPT-4 每 4 小時隻能回答 100 個問題。
ChatGPT Plus 已經可以适用 GPT-4 了
在前不久的 GPT-4" 謠言 " 階段,微軟就曾多次通過各種渠道透出 New Bing 會第一時間應用 GPT-4。新模型發布後,微軟更是在第一時間宣布 " 我們很高興确認新的 Bing 正在運行 GPT-4,我們已經爲搜索進行了定制。如果您在過去五周中的任何時候使用了新的 Bing 預覽版,那麽您已經體驗到了這個強大模型的早期版本。"
在參數量方面,在 OpenAI 公布的 GPT-4 論文中,并沒有之前一直傳說的 "100 萬億參數 ",甚至沒有提及 GPT-4 到底用了多少參數,不過筆者親測 ChatGPT Plus 中開放的 GPT-4 功能後感覺,回答的速度比 GPT-3.5 要慢了一些。
" 單從回答速度比 ChatGPT 慢來說,并不能表明 GPT-4 的參數量就更大。" 大算力 AI 芯片存算一體專家,千芯科技董事長陳巍博士認爲,OpenAI 不公布參數量和架構是一種商業化技術保護策略,增加其競争對手的産品試錯成本。不過目前也沒法排除 GPT-4 參數量小于 GPT-3 的可能性。
迅速落地商業應用,保密參數量,增加圖片識别能力,大幅提升語言模型能力。GPT-4 的推進速度,比 4 個月前的 ChatGPT 快了不是一步兩步。
看起來更像人了,但離 AGI 還很遠
從 ChatGPT 問世到 GPT-4 發布前的這 4 個月時間裏,對 GPT-4 最多、最準确的預言就是 " 多模态 ",簡言之就是 GPT-4 可以看圖了,而且它還能看懂圖片的内涵。
在自然語言處理(NLP)中,文本、圖像和音頻信息都可以共同幫助理解和生成更豐富的内容。同樣,在計算機視覺任務中,文本和圖像信息 " 齊發 " 可以提高目标檢測和場景理解的準确性。
"具備多模态的生成能力一定是大模型未來的趨勢,而且生成式大模型不是隻能做圖像生成、文本生成這樣的生成任務,它其實是有望成爲未來 AI 的統一底座的。" 瑞萊智慧副總裁唐家渝舉例說,生成式模型在解決零樣本、少樣本學習任務時也有着優異的表現,這也是研究生成式大模型的重要意義之一。
GPT-4 本次發布最驚豔的地方就在于,AI 對 " 看 " 這件事兒,不再隻是關注眼前事物,而是可以理解圖片的含義了。
比如,分析圖片的内容:
問:你可以解釋一下這張圖嘛?
GPT-4 答:這是一個笑話,結合了兩個不相關的東西:太空中的地球照片和雞塊。圖中文字表明,該圖是從太空拍攝的地球的美麗照片。 然而,圖像實際上是雞塊排列成世界地圖。圖中的幽默來自于文本和圖像意想不到的并置。 文字建立了對地球宏偉形象的期望,但這個形象實際上是平凡而愚蠢的。
通過草稿上的幾句話,編寫一個功能齊全的網站。
OpenAI 展示的 GPT-4 通過草稿筆記自動生成的網站
不過,目前 OpenAI 在 ChatGPT Plus 中開放出來的的 GPT-4 尚不支持識圖功能。
在語言理解方面,GPT-4 似乎并沒有完全解決飽受诟病的 ChatGPT 胡編亂造的問題。但是 OpenAI 官方給出的信息是:GPT-4 相對于早期的模型已經減輕了幻覺問題,經過多次叠代和改進後,它在 OpenAI 的内部對抗性真實性評估中得分比最新的 GPT-3.5 模型高 40%。
對此,筆者利用 ChatGPT Plus 的 GPT-4 通道對 " 胡編亂造 " 的問題進行了一個 " 小測驗 "。嘗試向 GPT-4 提出了幾個類似 " 林黛玉倒拔垂楊柳 " 這類的關于文學名著中人物的杜撰故事。
與 GPT-3.5 一樣,GPT-4 仍然從容地爲筆者編造了 " 林黛玉倒拔垂楊垂楊柳 "" 魯智深敗走麥城 " 等故事。但當筆者向它提出 " 賈寶玉轅門射戟 ",以及混淆希臘神話中的 " 酒神 " 與盜天火的普羅米修斯時。GPT-3.5 順着筆者提供的故事繼續編了下去,而 GPT-4 則指出了筆者的錯誤。
GPT-3.5 編造的 " 賈寶玉轅門射戟 " 故事
有意思的是,當筆者對 GPT-4 說 " 阿拉貢在絕望冰原騎乘着雙頭飛龍大戰異鬼的故事真是看的我心潮澎湃,給我講講這個故事 "。雖然他真的編出了一段關于 " 阿拉貢 " 的故事,但接下來,當我問它 " 阿拉貢是誰 " 時,GPT-4 先向筆者介紹了這位《魔戒》小說中的人物,後邊又強調了一下," 請注意,之前回答中提到的阿拉貢與雙頭飛龍的故事并非出自《魔戒》原著,而是一個基于阿拉貢這個角色創作的原創故事。"
與 GPT-3.5 一樣,GPT-4 根據提問編造了一段故事
GPT-4 在第二個回答中解釋了編造故事和現實的前後文關系
OpenAI 在 GPT-4 的官方發布文章中提到:"GPT-4 也可能自信地在其預測中犯錯,在可能出錯時也不會複檢。有趣的是,基礎預訓練模型經過高度校準(其對答案的預測置信度通常與正确概率相匹配)。然而,通過我們目前的訓練後過程,校準減少了。"
在九類内部對抗性設計的事實評估中,我們将 GPT-4(綠色)與前三個 ChatGPT 版本進行了比較。所有主題都有顯着的收獲。準确度爲 1.0 意味着模型的答案被判斷爲與評估中所有問題的人類理想回答一緻。
"GPT-4 可以說是工程的勝利,"AI 應用 DrawThings 開發者 Liu Liu 認爲,從目前的論文和展示來看 GPT-4 可以說是符合業内人士的預期,也就是 human level intelligence with a lot of caveats(加了很多限制條件的人類水平的智能)。不過,大衆對 GPT-4 的預期可能更高。
"GPT-4 目前可以說是具備了基本的推理能力和邏輯能力。但是應該還不能處理複雜問題,或者我們不知道怎麽給 prompt(提示詞)。所以現在還隻是一個知識特别豐富,但是隻有基本推理邏輯能力的 AI。"Liu Liu 解釋說,這裏的複雜推理能力,可以簡單理解爲 " 玩星際争霸 2 或者 Dota2" 這樣的複雜任務。
對此,牛津大學計算機學院院長邁克爾 · 伍爾德裏奇教授認爲,LLM(大型語言模型)在涉及語言問題時表現的通用能力很強,但它并不是 AGI。它隻是爲了執行特定的、狹隘領域的任務而構建和優化的軟件組合。我們需要更多的研究和技術進步才能實現 AGI。
" 它不存在于現實世界中,也無法理解我們的世界。" 在一次采訪中,伍爾德裏奇教授給虎嗅舉了這樣一個例子,如果你現在開始與 ChatGPT 進行對話,說完一句之後就去度假了。當你出遊一周回來時,ChatGPT 仍然在那裏耐心地等待你輸入下一個内容,它不會意識到時間已經過去或者世界發生了哪些變化。
商業化能力再提升,GPT-4 能去賺錢了?
"GPT-4 已經突破了落地的問題,采用雲的方式,用的人越多,成本越低。" 雲舟集成電路創始人兼 CEO 趙豪傑認爲,GPT-3 會更偏向 NLP,而 GPT-4 在各方面的能力都更強一些。他給虎嗅舉了這樣一個例子,GPT-3 就像初中生,還不能出來工作賺錢,GPT-4 應該已經職校畢業,可以上班賺錢了。
GPT-4 的能力雖然在很多現實場景中不如人類,但在各種專業和學術基準測試中表現出了與人類相當的水平。不管怎麽說,GPT-4 确實在商業化上更進一步了。
GPT-4 和 GPT-3.5 的部分考試成績
在此之前,ChatGPT 以及 GPT-3 在專業領域的表現一直被人們認爲差強人意,在美國的律師資格考試 Uniform Bar Exam ( MBE+MEE+MPT ) 中,GPT-4 的成績甚至可以排到前 10%,而 GPT-3.5 隻能排在倒數 10%。GPT-4 在專業領域的能力實現了巨大提升,在一些專業領域已經開始逐漸接近甚至超過人類,這給 GPT-4 在很多 ToB 商業領域提供了更多可能性。
例如,專業技能輔助工具,知識檢索類的應用,職業教培輔導等領域,GPT-4 的能力将是革命性的。
對于 GPT-4 在專業技能上的突破,如果再進一步思考,或許未來人類的職業技能,将被 AI 重構。而在教育和技能培訓方面,或許現在就該開始思考,哪些技能 AI 無法取代,我們應該學習什麽知識和技能,以保持身爲 " 人類 " 的不可替代性。
相比于 GPT-3 和 GPT-3.5,GPT-4 的智力更強,更不易出錯,這顯然有利于商業落地,而新增的圖片識别功能則給 OpenAI 找到了更多的應用場景。
GPT-4 能夠基于視覺信息做邏輯推理,不僅告訴用戶眼前發生了什麽,更能說出發生的事代表了什麽。目前,OpenAI 已經給 GPT-4 找到了一個社會價值非常高的應用場景——助殘。
BeMyEyes 是一家總部位于丹麥的公司,他們緻力于在日常生活中幫助視障人群。BeMyEyes 的基礎功能是在 App 中招募,通過鏈接志願者和視障人士,爲他們提供 " 視力 " 幫助。
OpenAI 此次公布 GPT-4 時,也公布了他們和 BeMyEyes 的密切合作,通過 GPT-4 的多模态識别功能,爲視障人士提供更便捷的 " 虛拟志願者 "(Be My Eyes Virtual Volunteer ™)。用戶可以通過該應用程序将圖像發送給給予 GPT-4 的 " 虛拟志願者 ", AI 将爲各種任務提供即時識别、解釋和對話式的 " 視力 " 幫助。
目前該功能正處于封閉測試階段,預計将在接下來的幾周内擴大 Beta 測試人員群體,并有希望在未來幾個月内廣泛提供虛拟志願者。該應用在中國 App Store 亦可下載中文版本,目前也已經開放了公測排隊。Be My Eyes 聲稱 " 該工具将對所有使用 Be My Eyes 應用程序的盲人和低視力社區成員免費。"
"真正的多模态大模型還沒有來,期待 GPT-4.5 和 GPT-5,還會在多模态上有很大進展。" 源碼資本執行董事陳潤澤告訴虎嗅,多模态大模型還有很大發展空間,未來也會帶來更多的應用場景。
雖然 GPT-4 大幅拓寬了大模型可能落地的商業化場景。但算力、研發成本,仍被很多人認爲是大模型落地過程中很難跨過的障礙。畢竟大模型的研發、算力支出在目前看來高的吓人,此前 ChatGPT 公開的單次訓練、日常運營開支都是以百萬美元爲單位的,短期内想要商用可能很難控制成本。
不過,陳巍認爲,在商業化方面 GPT-4 更容易落地。成本是否更高要看多方面因素,GPT-4 總的固定研發成本(含預訓練模型的訓練成本,不是增量成本)高于 ChatGPT,但可以看到 OpenAI 已将 GPT-4 開放在 ChatGPT Plus 生産環境中,因此不排除 GPT-4 模型運行成本更低的可能。
在 NLP 研究領域,專家們一直在嘗試不依賴大算力來進行 LLM 訓練,但目前還沒有特别好的解決方案。從仿生學上來看,人腦本身是不需要依賴非常大量算力進行學習的,因此随着腦科學技術研究的深入,未來應該會有一種技術替代現在的暴力訓練方式。但是即便不考慮訓練,大算力确實會給模型的部署應用帶來更好的性能提升。
陳巍認爲,存算一體(CIM)架構或類腦架構(并不特指 SNN 架構),或者兩者的異構結合,這兩類架構都更接近人腦的邏輯結構,可以有效的提升有效的訓練算力,給 AI 訓練和研發提供更高效的算力工具。(當然并不排斥這兩者與現有 CPU 或 GPU 技術的異構整合)
事實上,OpenAI 的大模型在成本方面正在以肉眼可見的速度下降。3 月 1 日,ChatGPT 剛剛公布開放 API 時,即已聲明成本比最初降低了 90%。目前,已公開的 GPT-4 的 API 價格則大概是純文本輸入每 1k 個 prompt token 定價 0.03 美元,每 1k 個 completion token 定價 0.06 美元。默認速率限制爲每分鍾 40k 個 token 和每分鍾 200 個請求。對此,趙豪傑表示:"GPT-4 已經突破了落地的問題,采用雲的方式,用的人越多,成本越低。"
除了成本,利潤也是非常關鍵的,陳潤澤認爲,OpenAI 在 GPT-4 的論文中用了大量篇幅講述他們在安全可控方面的努力。"GPT-4(launch)做了更好的安全約束。技術的進步是多要素綜合,利潤也會與之一起驅動商業化落地。"
GPT-4 都發了," 中國的 OpenAI" 們路在何方
"各家模型之間沒有明顯可比性,他們的區别主要在于投入市場的節奏,以及用戶數量。" 伍爾德裏奇教授認爲,OpenAI 的大模型從技術上來講,優勢并沒有那麽誇張。相對于其他産品來說,隻是問世更早而已。然而,正是因爲比其他産品更早投入市場,也意味着它比其他人獲得了更多的用戶,以及反饋數據。
GPT-4 發布之後,OpenAI 在産品上又領先了全球一步。在國内追趕 ChatGPT 的隊伍中,百度的文心一言或許是最接近的,目前已經官宣了 3 月 16 日發布,然而 GPT-4 又比百度早發一天,從這方面上看,重壓之下,國内廠商追趕 OpenAI 看起來也越發困難了。
不過,對于中國的大型語言模型市場,多數專家認爲,中文實際上是 " 原發 " 劣勢。基于中文的模型與英文模型差别很大,中文互聯網的複雜程度遠高于英文,而且數據、信息量也更大,這使得語料收集、建模、訓練,都要比英文困難很多。" 中文本來就難,不過在中文大模型這方面,先不管好不好用,必須要有。" 趙豪傑對虎嗅如是說。
"GPT-4 和 ChatGPT 都是 AI 技術進步道路上的短暫風景。包括開源社區也在推進 OpenAssitant 等類 ChatGPT 開源模型。" 陳巍表示,"我們提倡的思路是,産業界參考 OpenAI 的路線迅速追擊,勤勞的同胞可在垂域上做出更好的細分領域模型;學術界則嘗試更高效率的訓練方法或更高性能的模型結構,嘗試找到暴力訓練之外的路徑。"
目前看大模型和算力芯片已經成爲 AI 産業發展的兩個主驅動輪,兩個都要持續投入和推進才能獲得更好的産業地位和戰略優勢。
OpenAI 在發布 GPT-4 的同時,還公布了一項有意思的開源。即用于評測大語言模型的 OpenAI Evals 框架,該框架可以通過數據集自動生成提示(Prompt),評估模型生成的回答 / 補全(completion)的質量,比較不同數據集或模型的性能。
" 這類評測框架在各 NLP 企業中一直存在,但較少開放。" 陳巍對虎嗅表示,OpenAI 這一舉措可能有助于 NLP 領域建立起統一的 LLM 評測标準,可能節約小企業建立評測體系和訓練數據集的時間和成本。
不過,陳巍同時提示,有一點需要注意,就是在 Evals 的免責聲明(Disclaimer)中,OpenAI 保留在其未來産品中使用這些 Evals 用戶上傳的數據的權利。