GPT-4o深夜炸場！AI實時視頻通話絲滑如人類，Plus功能免費可用，奧特曼：《她》來了

不開玩笑，電影《她》真的來了。

OpenAI 最新旗艦大模型GPT-4o，不僅免費可用，能力更是橫跨聽、看、說，絲滑流暢毫無延遲，就像在打一個視頻電話。

現場直播的效果更是炸裂：

它能感受到你的呼吸節奏，也能用比以前更豐富的語氣實時回複，甚至可以做到随時打斷。

GPT-4o 裏的 "o" 是Omni的縮寫，也就是" 全能 "的意思，接受文本、音頻和圖像的任意組合作爲輸入，并生成文本、音頻和圖像輸出。

它可以在短至 232 毫秒、平均 320 毫秒的時間内響應音頻輸入，與人類在對話中的反應速度一緻。

這還是一份給所有人的大禮，GPTo 與 ChatGPT Plus 會員版所有的能力，包括視覺、聯網、記憶、執行代碼、GPT Store ……

将對所有用戶免費開放！

（新語音模式幾周内先對 Plus 用戶開放）

在直播現場，CTO Murati 穆姐說：這是把 GPT-4 級别的模型開放出去，其實她還謙虛了。

在場外，研究員 William Fedus 揭秘，GPT-4o 就是之前在大模型競技場搞 A/B 測試的模型之一，im-also-a-good-gpt2-chatbot。

無論從網友上手體驗還是競技場排位來看，都是高于 GPT-4-Turbo 級别的模型了，ELO 分數一騎絕塵。

而這樣的超強模型也将提供 API，價格打 5 折，速度提高一倍，單位時間調用次數足足三原來的 5 倍！

追直播的網友已經在設想可能的應用，可以替代盲人看世界了。以及确實感覺比之前的語音模式體驗上強上不少。

鑒于之前不少人就已經和 ChatGPT 語音模式 " 談戀愛 " 了，有大膽想法的朋友，可以把你們的想法發在評論區了。

總裁 Brockman 在線演示

知道 OpenAI 發布會爲什麽定在谷歌 I/O 前一天了——打臉，狠狠打臉。

谷歌 Gemini 發布會需要靠剪輯視頻和切換提示詞達成的實時對話效果，OpenAI 現場全都直播演示了。

比如讓 ChatGPT 在語言不通的兩個人之間充當翻譯機，聽到英語就翻譯成意大利語，聽到意大利語就翻譯成英語。

發布會直播之外，總裁哥 Brockman 還發布了額外的 5 分鍾詳細演示。

而且是讓兩個 ChatGPT 互相對話，最後還唱起來了，戲劇感直接拉滿。

這兩個 ChatGPT，一個是舊版 APP，隻知道對話，另一個則是新版網頁，具備視覺等新能力。（我們不妨取 Old 和 New 的首字母，分别叫 TA 們小 O 和小 N）

Brockman 首先向小 O 介紹了大緻情況，告訴她要和一個擁有視覺能力的 AI 對話，她表示很酷并欣然接受。

接着，Brockman 讓她稍作休息，并向小 N 也介紹情況，還順帶展示了小 N 的視覺能力。

隻見打完招呼後，小 N 準确地說出了 Brockman 的衣着打扮和房間環境。而對于要和小 O 對話這件事，小 N 也感到很有趣。

接下來就是小 O 和小 N 相互對白的時間了，TA 們依然是從 Brockman 的衣着開始聊起，小 O 不斷提出新的問題，小 N 都一一解答。

接着，他們又談論了房間的風格、布置和光線，甚至小 N 還意識到了 Brockman 正站在上帝視角凝視着 TA 們。

如果你看了這段視頻就會發現，畫面中出現了一個女人在 Brockman 身後做了些惡搞的手勢。

這可不是亂入，是 Brockman 和女人串通好，專門給小 N 設計的一道 " 考題 "。

就在小 O 和小 N 聊的正開心的時候，Brockman 選擇加入，直接問有沒有看到什麽不正常的地方。

結果是小 N 直接識破了 Brockman 的小伎倆，直接複述出了女人在他身後做小動作的場景，小 O 聽了之後直接感歎原來在這裏享受樂趣的不隻有我們兩個。

Brockman 把這句話當成了誇贊，并對小 O 表示了感謝，還愉快地加入了 TA 們的對話。

之後是最後也是最精彩的部分，在 Brockman 的指揮下，小 O 和小 N 根據剛才聊天的内容，直接開啓了對唱模式。

隻過了簡單幾輪，銜接地就十分密切，而且旋律悠揚，音色也是和真人毫無二緻。

最後視頻以 Brockman 唱出的一句 Thank you 結束，在視頻外的推文中他還透露新的語音對話功能将在數周内向 Plus 用戶開放。

端到端訓練，一個神經網絡搞定語音文本圖像

正如奧特曼在發布會前所說，GPT-4o 讓人感覺像魔法一樣，那麽它是如何做到的呢？

非常抱歉，這次非但沒有論文，連技術報告也不發了，隻在官網 Blog 裏有一段簡短的說明。

在 GPT-4o 之前，ChatGPT 語音模式由三個獨立模型組成，語音轉文本→ GPT3.5/GPT-4 →文本轉語音。

我們也可以讓舊版 ChatGPT 語音模式自己講一下具體是怎麽個流程。‍‍

這樣一來，整個系統的延遲足足有 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4），而且丢失了大量的信息，它無法直接感受音調、多個說話者或背景噪音，也無法輸出笑聲、唱歌聲，或表達情感。

GPT-4o 則是跨文本、視覺和音頻端到端訓練的新模型，這意味着所有輸入和輸出都由同一個神經網絡處理。

在語音翻譯任務上，強于 OpenAI 專門的語音模型 Whisper-V3 以及谷歌和 Meta 的語音模型。

在視覺理解上，也再次反超 Gemini 1.0 Ultra 與對家 Claude Opus

雖然技術方面這次透露的消息就這麽多了，不過也有學者評價。

一個成功的演示相當于 1000 篇論文。

One More Thing

除了 OpenAI 帶來的精彩内容之外，也别忘了北京時間 5 月 15 日淩晨，谷歌将召開 I/O 大會。

到時量子位将繼續第一時間帶來最新消息。

另外根據網友推測，GPT-4o 這麽強，全都免費開放了，這是勸大家不續訂 ChatGPT Plus 了的意思嗎？

那肯定不是啊～

鑒于 OpenAI 春節期間在谷歌發布 Gemini 1.5 Pro 後半小時左右用 Sora 狙擊了一把，明天 OpenAI 還有新活也說不定呢？

直播回放

https://www.youtube.com/watch?v=DQacCB9tDaw

參考鏈接：

[ 1 ] https://openai.com/index/hello-gpt-4o/

— 完 —