新裏程碑！OpenAI發布GPT-4：四大提升，落地六種場景

來源：AI 星球，文 / 王非

" 這裏是 GPT-4，它是我們迄今爲止功能最強大、對齊最好的模型！"

今天淩晨，OpenAI 發布了多模态預訓練大模型 GPT-4（接受圖像和文本輸入，發出文本輸出）。其聯合創始人 & CEO Sam Altman，毫不掩飾地給予了上述評價，他還表示，" 仍然存在缺陷，仍然有限 "，但它也 " 在第一次使用時似乎比你花更多時間後更令人印象深刻 "。

OpenAI 聯合創始人 & 董事長 & 總裁 Greg Brockman 則表示，這是一個在能力和對齊方面的重大進步。

OpenAI 官方稱，GPT-4 是 OpenAI 擴展深度學習的最新裏程碑。GPT-4 是一個大型多模态模型（接受圖像和文本輸入，發出文本輸出），雖然在許多現實場景中不如人類，但在各種專業和學術基準上表現出人類水平的表現。

目前，GPT-4 沒有免費版本，僅向月訂閱費 20 美元的 ChatGPT Plus 用戶及企業和開發者開放。

值得注意的是，早在一個月前，微軟的新版搜索引擎必應（Bing）就已經在 GPT-4 上運行。微軟表示，" 如果您在過去五周内的任何時間使用過新版必應，那麽您已經體驗過 GPT-4 的早期版本。"

受 GPT-4 發布的消息影響，ChatGPT 概念股集體走高：百度漲超 5%，美圖漲 5%，網易漲超 4%，閱文集團、阿裏巴巴、商湯、知乎漲超 3%。

即便領漲，壓力也還是來到了百度，該公司計劃于明日正式發布文心一言。

四大提升，超越 ChatGPT

遵循 GPT、GPT-2 和 GPT-3 的研究路徑，OpenAI 的深度學習方法利用更多的數據和更多的計算能力來創建越來越複雜和強大的語言模型。

由于其更廣泛的一般知識和解決問題的能力，GPT-4 可以更準确地解決難題。具體而言，有以下四大方面的提升：

1. 創造力

GPT-4 比以往任何時候都更具創造力和協作性。它可以與用戶一起生成、編輯和叠代創意和技術寫作任務，例如創作歌曲、編寫劇本或學習用戶的寫作風格。

2. 視覺輸入

GPT-4 可以接受圖像作爲輸入，并生成标題、分類和分析。

OpenAI 在官網上展示的案例顯示，輸入如下圖片并詢問 " 這張圖片有什麽不尋常之處 "，GPT-4 可作出回答 " 這張照片的不同尋常之處在于，一名男子正在行駛中的出租車車頂上，使用熨衣闆熨燙衣服。"

在官方演示中，GPT-4 幾乎就隻花了 1-2 秒的時間，識别了手繪網站圖片，并根據要求實時生成了網頁代碼制作出了幾乎與手繪版一樣的網站。

除了普通圖片，GPT-4 還能處理更複雜的圖像信息，包括表格、考試題目截圖、論文截圖、漫畫等，例如根據專業論文直接給出論文摘要和要點。

3. 更長的上下文

GPT-4 能夠處理超過 25000 個單詞的文本，可用于長篇内容創作、擴展對話以及文檔搜索和分析等應用場景。

4. 超越 ChatGPT 的高級推理能力

值得一提的是，在發布會直播上，OpenAI 總裁 Greg Brockman 現場表演了一波 GPT-4 給代碼修 Bug。出現問題後直接把 1 萬字的程序文檔傳給 GPT-4，無需擔心格式，直接附上出現的問題，幾秒鍾内就可以得到解決辦法。

六種已落地應用和服務模式

除了性能的提升，OpenAI 表示，已經有多家公司将 GPT-4 搭載到他們的産品中，包括語言學習工具軟件多鄰國（Duolingo）、幫助視障用戶的軟件 Be My Eyes、移動支付公司 Stripe、國際性金融服務公司摩根士丹利（Morgan Stanley）和可汗學院（Khan Academy）。

此外，OpenAI 還公布了 GPT-4 與冰島政府合作的服務場景。

1. 多鄰國：推出新功能以增強産品

多鄰國是一款語言學習工具軟件，提供 40 多種語言課程，包括英語、日語、韓語、法語、粵語等大衆語言，也包括威爾士語、納瓦荷語等小語種和瀕危語言，每月有超過 5000 萬學習者依靠多鄰國教他們第二語言。

多鄰國選用 OpenAI 的 GPT-4 推出了兩個新功能來增強其産品：Role Play（角色扮演），一個 AI 對話夥伴，以及 Explain my Answer（解釋我的答案），用在名爲 Duolingo Max 的新訂閱級别中。

2.Be My Eyes：開發新的虛拟志願者

自 2012 年以來，Be My Eyes 一直在爲超過 2.5 億盲人或弱視人士的社區創造技術。這家丹麥初創公司将盲人或視力低下的人與志願者聯系起來，幫助他們完成數百項日常生活任務，如識别産品或導航機場。

随着 GPT-4 新視覺輸入功能的增加，Be My Eyes 開始開發一款名爲 GPT-4 動力的虛拟志願者，它可以在 APP 中生成與人類志願者相同的上下文和理解水平。

3.Stripe：簡化用戶體驗并打擊欺詐行爲

此前，Stripe 之前使用 GPT-3 來幫助他們的支持團隊通過路由問題票證和總結用戶問題等任務，更好地爲用戶提供服務。

今年早些時候，Stripe 要求 100 名員工做一些非常不尋常的事情：停止日常工作，而是使用最新一代的 OpenAI 語言學習模型 GPT-4，爲支付平台設計新特性和功能。來自團隊的工程師跨越支持、入門、風險和文檔，考慮了 Stripe 可以使用人工智能來理解自由形式的文本和圖像并構建類似人類的響應，以改進或更改功能或工作流程。

Stripe 的團隊列出了 50 個測試 GPT-4 的潛在應用程序；經過審查和測試，其中 15 個原型被認爲是集成到平台中的強候選，包括支持定制、回答有關支持的問題和欺詐檢測。

4. 摩根士丹利：優化财富管理知識庫

摩根士丹利擁有一個内容庫，其中包含數十萬頁的知識和見解，涵蓋投資策略、市場研究和評論以及分析師見解。這些大量信息存儲在許多内部網站中，主要是 PDF 格式，需要顧問掃描大量信息以找到特定問題的答案，這種搜索可能既耗時又繁瑣。

在 OpenAI 的 GPT-4 的幫助下，摩根士丹利正在改變其财富管理人員定位相關信息的方式。從去年開始，該公司開始探索如何利用 GPT 的嵌入和檢索功能來利用其知識資本——首先是 GPT-3，現在是 GPT-4。公司數據與創新分析主管 Jeff McMillan 表示，該模型将驅動一個内部聊天機器，可以對财富管理内容進行全面搜索，并 " 有效地解鎖摩根士丹利财富管理的累積知識 "，GPT-4 終于将解析所有見解的能力轉化爲更可用和可操作的格式。

5. 可汗學院：既是虛拟導師也是課堂助手

可汗學院是一個非營利組織，其使命是爲任何地方的任何人提供免費、世界一流的教育。

可汗學院将使用 GPT-4 爲 Khanmigo 提供動力，Khanmigo 是一個人工智能驅動的助手，既是學生的虛拟導師，也是教師的課堂助手。

6. 冰島政府：保存冰島語

冰島是一個位于北大西洋中部的島國，擁有充滿活力的技術産業和蓬勃發展的旅遊業。然而，盡管其大約 37 萬名公民中的大多數人講英語或其他第二語言，但它與美國和歐洲的融合使該國的母語冰島語面臨風險。

冰島政府與 OpenAI 合作，使用 GPT-4 來保護冰島語，并将防禦地位轉化爲創新的機會。

專業和學術水平接近人類

OpenAI 在發布的 GPT-4 技術報告中稱，雖然在許多現實世界場景中的能力不如人類，但在各種專業和學術基準上表現出人類水平的表現。

例如：GPT-4 通過了模拟律師資格考試，它的成績在考生中排名前 10%，GPT-3.5 的得分則排在後 10%；

SAT（美國高考）：GPT-4 在閱讀寫作中拿下 710 分高分、數學 700 分（滿分 800）。

同時，在一套傳統的 NLP 基準測試中，GPT-4 的表現超過了以前的大型語言模型和大多數最先進的系統（這些系統通常有特定的基準訓練或手工工程）。

在 MMLU 基準測試中，GPT-4 不僅在英語考試中以相當大的優勢超過了現有的模型，而且在其他語言方面也表現出了強大的性能。

OpenAI 花了 6 個月的時間，讓 GPT-4 更加安全和一緻。在内部評估中，相較于 GPT-3.5，GPT-4 不合規内容的響應請求降低了 82%，響應準确度提高了 40%。

此外，爲了初步了解 GPT-4 在其他語言上的能力，OpenAI 使用 Azure Translate，将一套涵蓋 57 個主題的 1.4 萬多項選擇題的 MMLU 基準，翻譯成了多種語言，然後進行測試。在測試的 26 種語言中，有 24 種語言，GPT-4 優于 GPT-3.5 和其他大語言模型的英語語言性能。其中中文達到了 80.1% 的準确性，而 GPT-3.5 的英文的準确性爲 70.1%，也就是說，在這個測試中，GPT-4 對于中文的語言理解，已經優于此前 ChatGPT 對于英文的理解。

爲了測試技術潛在危害，OpenAI 還對 GPT-4 進行了壓力測試，并提出了偏見、虛假信息、隐私和網絡安全的相關風險。測試顯示，GPT-4 可以産生潛在的有害内容，如關于計劃攻擊或仇恨言論的建議。OpenAI 稱，GPT-4 甚至能提供關于如何進行非法活動的詳細信息，包括開發生物武器。

值得一提的是，OpenAI 還在與一個外部組織合作，測試 GPT-4 是否能在沒有人類輸入的情況下進行自主行動。

OpenAI 官方也警告稱，GPT-4 仍然保留了許多與早期語言模型相同的問題，包括編造信息的傾向以及生成暴力和有害文本的能力。OpenAI 提醒，用戶在使用語言模型時應格外小心，最好輔助以人工審查、附加上下文、或完全避免在高風險情況下使用它。