該來的終于到來了。
美國當地時間 3 月 14 日,大熱的 OpenAI 正式推出其最新作品 GPT-4。通過 ChatGPT 再次點燃整個科技圈的想象力之後,GPT-4 毫無疑問成爲整個行業關注的焦點。
在 OpenAI 官方網站中,這一代的大模型 GPT-4 相較于前一代産品,最大的進化在于「多模态」和長内容生成。
此前的 ChatGPT,用戶隻能輸入文字,而 GPT-4 現在已經可以識别圖片内容,并給出答案,甚至能識别一些網絡上常見「梗圖」,并告訴用戶「笑點」到底是什麽。在輸出方面,GPT-4 最多可以輸出 25000 個單詞,相比 ChatGPT 有大幅提升。
同時,相比上一代産品,GPT-4 給出答案的錯誤更少,涉及到倫理和敏感問題時,回答也更「安全」。
GPT-4 能像「哥哥」ChatGPT 一樣再次席卷科技圈嗎?它對接下來 AI 行業的走向,又會産生怎樣的影響?
01
多了一雙「眼」,更智能
根據 OpenAI 介紹,相較于 ChatGPT,GPT-4 有三個方面的主要提升。
1 讀圖能力
對話時可以直接用圖片提問,它能夠在讀懂圖片内容的基礎上,給出有邏輯的回答。比如,你可以給它一張牛奶、雞蛋、面粉的圖片,問他「這些材可以用來做什麽?」它會給出一系列選項:
煎餅或華夫餅
法式薄餅、法式吐司
煎蛋或煎蛋餅
乳蛋餅
蛋奶或布丁
蛋糕或紙杯蛋糕
松餅或面包
餅幹或餅幹
圖片來源|OpenAI
當種讀圖能力和寫代碼能力相結合,就像有了魔法,在發布會上,Open AI 展示了如何讓 GPT-4 幫你制作網頁:
隻要輸入在筆記本上畫出草圖,拍照,對他說:用簡短的 HTML/JS 将這個草圖變成彩色的網站,能夠幾秒鍾之内,一個完整的網頁就可以出現。
目前 Open AI 還沒有将 GPT-4 中的圖像識别能力開放,爲了更好地優化圖像輸入功能,OpenAI 正在與 BeMyEyes 密切合作。這是一家在丹麥的公司它們在做的事情是用軟件讓視障人群與志願者遠程互動,後者做前者的眼睛,幫助他們完成生活任務。
接入了最新的圖像識别能力之後,視障人群就像有了一個「更聰明的攝像頭」,也被稱爲「虛拟志願者」,之前的算法不能基于視覺信息做邏輯推理——這也是 GPT-4 與之前的視覺算法最大的區别。公司的 CTO Jesper Hvirring Henriksen 解釋,新的功能「不僅在于交談的能力,還在于該技術提供的分析能力」,基本的圖像識别應用程序隻能告訴人們眼前發生了什麽,現在算法能夠判斷地面上出現的事物「是否不僅僅是一個球,而是一個絆倒的危險,然後進行交流。」
2 答案更可靠
在更涉及到邏輯的更複雜任務上,能夠給出更可靠、也更有創造性的答案。
Open AI 讓 GPT-4 參加了一系列考試,GPT-4 的表現均有所提升,有的甚至直接從 GPT-3.5 的差生變成了優等生。例如,在模拟律師資格考試上,它成績在前 10% 左右;而 GPT-3.5 的成績在後 10% 左右。滿分爲 800 分的 SAT Math,它從 590 分提升到了 700 分。
「在随意的交談中,GPT-3.5 和 GPT-4 之間的區别可能是微妙的。當任務的複雜性達到足夠的阈值時,差異就會出現—— GPT-4 比 GPT-3.5 更可靠、更有創意,并且能夠處理更細微的指令。」Open AI 表示。
3 内容更長更豐富
此外,在單次問答的信息處理量上也有了提升。在對 GPT-4 提問的時候,一次性能夠輸入長達 25000 單詞。之前,有編劇跟極客公園交流,試用 ChatGPT 的時候跟,隻能把劇本拆開一段段給模型看,現在,這樣的煩惱應該會大大減輕。
也就是可以讓他直接幫你讀文章。你還可以扔給他一個鏈接,讓他直接做閱讀理解。
比如,給它美國歌星雷哈娜的維基百科鏈接,問她,「描述一下她在超級碗上的表現,以及爲什麽這麽特别」
給出的回答是這樣:
蕾哈娜在第七屆超級碗中場秀上的表演很特别,原因有很多。首先,這是她五年多來的第一次現場表演,也是她第一次在超級碗中場秀上亮相。此外,她還創造了曆史,成爲第一個在懷孕期間在超級碗表演的人。這場演出本身就廣受好評,許多人稱贊她充滿活力的表演和令人印象深刻的歌聲。它也獲得了大量的觀衆,成爲曆史上收視率第二高的中場秀。
4. 關于「胡編亂造」和「有害答案」
當然,目前大模型在「胡編亂造」上的問題,GPT-4 仍然有。不過 Open AI 表示,在對于「捏造事實」的内部測試上,GPT-4 的表現比 GPT-3.5 要高出 40%。GPT-4 的知識範疇也存在時間限制,截止于 2021 年 9 月。
在生成有害的想法上,Open AI 也強調了風險。「GPT-4 及其後續模式有可能以有益和有害的方式對社會産生重大影響。我們正在與外部研究人員合作,改進我們理解和評估潛在影響的方式,并對未來系統中可能出現的危險能力進行評估。」
由于在基于人類反饋的強化學習(RLHF)環節中,增加了一個額外的安全獎勵信,這使得 GPT-4 目前的表現更加優秀一些。此外,OpenAI 也聘請了 50 多名來自人工智能對齊風險(AI alignment risks)、網絡安全、生物風險、信任與安全以及國際安全等領域的專家,對模型進行對抗性測試。研究結果中給出了兩個例子。
02
GPT-4 落地更快
對于 GPT-4 的表現,OpenAI 總結道:我們花了 6 個月的時間叠代調整 GPT-4,使用了來自 ChatGPT 的經驗教訓和我們的對抗性測試程序,在真實性、可控性(steerability)和拒絕超出護欄(refusing to go outside of guardrails)方面得到了我們有史以來最好的結果。
顯然,OpenAI 的 GPT 大模型叠代速度變快了。GPT-4 距離上次 ChatGPT 的發布,不到 4 個月。這與其開放 ChatGPT 給個人用戶和企業客戶的舉措有關,使機器基于人類反饋的強化學習(RLHF)更快,形成了數據飛輪的優勢。
比 GPT-4 叠代更快的,是其落地應用的速度。
盡管 GPT-4 還沒有全面開放 API 接口,但其實,OpenAI 大股東微軟的 New Bing 已經用上 GPT-4 超過一個月。在 OpenAI 官宣 GPT-4 之後,微軟在官方博客馬上公布了這一消息,甚至在 5 天前,微軟德國 CTO Andress Braun 就作爲全網獨家信源替 OpenAI 放出了風聲。
人們此前沒有明顯感覺到 New Bing 中搭載了 GPT-4 的原因可能在于 GPT-4 的進步是微妙的。OpenAI 闡述道,「在随意的談話中,GPT-3.5 和 GPT-4 之間的區别可能很微妙,當任務的複雜性達到足夠的阈值時,差異就會出現—— GPT-4 比 GPT-3.5 更可靠、更有創意,并且能夠處理更細微的指令。」
微軟的 Bing 搜索已經用上 GPT-4|微軟
微軟加持 OpenAI 大模型的叠代還體現在底層基礎設施上。OpenAI 透露,在過去的兩年裏,與 Azure 一起爲工作負載從頭開始共同設計了一台超級計算機,重建了整個深度學習堆棧。
不僅如此,更多的應用也加入了 GPT-4 的早期使用陣營:
Stripe 宣布使用 GPT-4 掃描商業網站并向客戶支持人員提供摘要;
語言學習工具軟件 Duolingo 将 GPT-4 構建到新的語言學習訂閱中;
摩根士丹利正在創建一個由 GPT-4 驅動的系統,該系統将從公司文件中檢索信息并将其提供給金融分析師;
可汗學院正在利用 GPT-4 構建某種自動化導師。
毫無疑問,OpenAI 的速度會越來越快。除了開放給客戶使用獲得數據飛輪,本次随着 GPT-4 的發布,OpenAI 還開源了 OpenAI Evals,這是其用于自動評估 AI 模型性能的框架,允許任何人報告其大模型中的缺點,以幫助指導進一步改進。
對此,出門問問創始人李志飛将其評價爲衆包評測,将幫系統找茬的任務,衆包給各位開發者和愛好者了,既讓大家有參與感,又能讓大家免費幫忙評估提高系統,一石二鳥。
03
加速的 AGI
2022 年 11 月 30 日,當 OpenAI 推出 ChatGPT 測試版的時候,也許不會料到,這款大語言模型加持下的對話機器人,會成爲科技史上第一個最短時間用戶破億的産品,同時讓全球科技從業者,再次因爲 AI 的進展而興奮起來。
而僅僅在 3 個月之後,OpenAI 就推出了下一代産品 GPT-4,其叠代非常具有「矽谷速度」了,從更新頻率上也能看出,團隊對于拿下大語言模型賽道的必勝之心。
雖然相對于上一代産品,GPT-4 的進化不算「革命性」的,但是各項指标上百分之幾十的提升,依然會爲已經很熱的 AI 賽道,再添一把火。
同時,一邊聯手微軟,讓 ChatGPT 在全球最大商業軟件 Office、以及基建 Azure 雲上落地;一邊通過開放 API 接口,接入更多商業合作夥伴,OpenAI 也成功将自己轉型爲類似雲一樣的平台型企業,生生闖出一條大模型的商業化之路,開了研究成果轉商業的先河。
GPT 到底是不是通向人工智能的聖杯——通用人工智能的正确道路,現在還不好說。但可以肯定的是,GPT 的成功,已經讓人們像當年互聯網革命一樣,想利用 AI「重新改造一切」。
GPT-4 的及時推出,給渴望改造和變革的人們,又打了一針強心劑。
以下爲出門問問創始人李志飛對于此次 GPT-4 的評價:
能力驚人:如果說 GPT3 系列模型給大家證明了 AI 能夠在一個模型裏做多個任務(也就是所謂通用),GPT-4 在很多任務上已經是人類水平(human-level),在很多專業和學術考試上超越 90% 的人類。各類中小學、大學和專業教育該如何應對?
高效的煉丹:GPT-4 模型太大每次訓練成本很高,但同時訓練模型時很像煉丹需要做很多實驗,如果這些實驗都要在真實環境下跑一遍的話誰也承受不了。爲此,OpenAI 搞了所謂的 predictable scaling,就是可以用萬分之一的成本來預測各個實驗的結果(loss 和 human eval ) 。這把大模型訓練從碰運氣的煉丹升級成了「半科學」的煉丹。
衆包評測:這次提供了一個 open source 的 OpenAI evals,就是把系統性的幫系統找茬的任務衆包給各位開發者和愛好者了,既讓大家有參與感,又能讓大家免費幫忙評估提高系統,一石二鳥。
工程補漏:這次還發布了一個 system card,大概意思是爲了減輕一本正經的胡說八道問題,系統打了各種各樣的補丁做預處理和後處理,後面還會開放代碼把打補丁能力衆包給大家。這标志着 LLM 終于從一個優雅簡單的 next token prediction 任務進入了各種 messy 的工程 hack 了。
多模态:萬衆矚目的多模态其實跟市場上很多論文描述的多模态能力沒有太多差别,主要區别是把文本模型的 few-shot 和邏輯鏈(COT)結合進來了,這也是在一個基礎能力很好的文本 LLM 加多模态的好處(其它多模态模型感覺 LLM 都太弱)。
有計劃的出王炸:GPT4 模型去年 8 月就煉出來了,但今天才發布,解釋是花時間做了大量測試和各種查漏補缺。谷歌工程師傅估計又得熬夜跟了?
不再 Open:論文裏完全不講模型參數和數據規模、也不講任何技術原理,解釋說是爲了大家好,怕大家學會了怎麽做 GPT4 用來作惡,個人完全不認同這種此地無銀的做法。
衆志成城:論文裏花了三頁把系統的各個部分的貢獻人員都列出來了,估計有一百多人,再次體現 OpenAI 裏團隊成員衆志成城、高度協作的狀态。