OpenAI發布GPT-4，做題能力更強，還接受圖片輸入，看懂梗圖無障礙！

大數據文摘出品

GPT-4 終于發布了！

資本市場狂歡之後，GPT-4 在萬衆矚目下誕生，OpenAI 在其官網以《GPT-4 是 OpenAI 最先進的系統，能夠産生更安全、更有用的響應》爲題發布了這一最新模型。

這一叠代速度不可謂不快，僅僅四個月前，ChatGPT 剛剛推出，并成爲曆史上增長最快的消費者應用程序。

總的來說，GPT-4 提高了 ChatGPT 的核心技術，使得它相比此前的版本，具有更廣泛的一般知識和解決問題的能力，使得聊天軟件能夠以更高的準确度解決更難的問題。

另外，它還增加了一些新功能，比如接受圖像作爲輸入，生成标題、分類和分析。

GPT-4 還能夠處理超過 25000 字的文本，允許用例如長形式的内容創建、擴展會話、文檔搜索和分析等。

新能力：看懂梗圖無障礙

GPT-4 模型中最大的更新之一是它引入了圖像作爲輸入，并對其生成标題、分類和分析，而 GPT-3.5 隻能接受文本。

比如下面這個例子：

問題：這幅圖有什麽好笑的 ? 一點一點描述它。

GPT-4 回答：該圖像顯示了一個包含三個圖片的 "Lightning Cable" 适配器。

圖 1: 一個智能手機與 VGA 連接器 ( 一個大型，藍色，15 針連接器通常用于計算機顯示器 ) 插入其充電端口。

圖 2: "Lightning Cable" 适配器的封裝，上面有一個 VGA 連接器的圖片。

圖 3: VGA 連接器的特寫鏡頭，最後是一個小型 Lightning 連接器 ( 用于爲 iPhone 和其他蘋果設備充電 ) 。

這張圖片中的幽默來自于将一個過時的大型 VGA 連接器插入一個小型的現代智能手機充電端口的荒謬。

目前，雖然 GPT-4 的能力不足以實現文本到視頻的生成和其他動态生成内容，但它确實提供了一個多元素聊天在未來将會是什麽樣子的一瞥，很容易想象，在未來，視頻、音頻、圖像和所有其他形式的内容将如何集成到聊天中。

舊能力：當任務足夠複雜，GPT-4 就會比 GPT-3.5 高出一截

GPT-4 作爲 OpenAI 在擴展深度學習方面的最新裏程碑，本質上是一個大型的多模态模型 ( 接受圖像和文本輸入，發出文本輸出 ) ，雖然在許多現實世界的場景中不如人類，但在各種專業和學術基準上，其能力已經接近甚至超過人類水平的表現。

例如，它通過了模拟律師資格考試，成績在前 10% 左右 ; 相比之下，GPT-3.5 的成績在後 10% 左右。

如果隻是随意的交談，GPT-3.5 和 GPT-4 之間的區别可能是微妙的，但是當任務的複雜性達到一個足夠的阈值時，差異就會顯現出來ーー與 GPT-3.5 相比，GPT-4 更可靠、更有創造性，并且能夠處理更多細微差别的指令。

爲了理解這兩個模型之間的區别，OpenA 測試了各種基準，包括模拟最初爲人類設計的考試，可以看出，在更高級的測試中，GPT-4 表現比 GPT-3.5 好很多。

再比如下面這個例子，可以看出，GPT-4 确實理解能力更勝一籌。

OMT：引入更多人工反饋

爲了增加模型的複雜性，GPT-4 還加入了更多的人工反饋，包括 ChatGPT 用戶提交的反饋，以改進 GPT-4 的行爲。OpenAI 表示，該公司 " 與 50 多位專家合作，在包括人工智能安全和安保在内的領域提供早期反饋。"

作爲聲明的一部分，OpenAI 分享了幾個已經測試過 GPT-4 的公司的用例，包括 Duolingo，Stripe，Morgan Stanley 和冰島政府。該公司還分享了一個 GPT-4 的研究博客，并強調 " GPT-4 仍然有許多已知的限制，我們正在努力解決，如社會偏見，幻覺和對抗性提示。"

計算機科學家、布朗大學 ( Brown University ) 教授蘇雷什•文卡塔蘇布拉曼尼亞 ( Suresh Venkatasubramanian ) 對這一消息仍持謹慎樂觀态度。在 VentureBeat 的一次采訪中，他說 : " 我很想看看 ChatGPT 在公衆注視下進行的壓力測試中，它是如何表現的，我特别感興趣的是，它是否以及如何産生欺騙性的真實内容，以及有什麽保護措施可以防止這種情況發生。"

相關報道：

https://venturebeat.com/ai/openai-releases-highly-anticipated-gpt-4-model-in-surprise-announcement/

https://openai.com/product/gpt-4

https://openai.com/research/gpt-4

點「在看」的人都變好看了哦！