不開玩笑,電影《她》真的來了。
OpenAI 最新旗艦大模型GPT-4o,不僅免費可用,能力更是橫跨聽、看、說,絲滑流暢毫無延遲,就像在打一個視頻電話。
現場直播的效果更是炸裂:
它能感受到你的呼吸節奏,也能用比以前更豐富的語氣實時回複,甚至可以做到随時打斷。
GPT-4o 裏的 "o" 是Omni的縮寫,也就是" 全能 "的意思,接受文本、音頻和圖像的任意組合作爲輸入,并生成文本、音頻和圖像輸出。
它可以在短至 232 毫秒、平均 320 毫秒的時間内響應音頻輸入,與人類在對話中的反應速度一緻。
這還是一份給所有人的大禮,GPTo 與 ChatGPT Plus 會員版所有的能力,包括視覺、聯網、記憶、執行代碼、GPT Store ……
将對所有用戶免費開放!
(新語音模式幾周内先對 Plus 用戶開放)
在直播現場,CTO Murati 穆姐說:這是把 GPT-4 級别的模型開放出去,其實她還謙虛了。
在場外,研究員 William Fedus 揭秘,GPT-4o 就是之前在大模型競技場搞 A/B 測試的模型之一,im-also-a-good-gpt2-chatbot。
無論從網友上手體驗還是競技場排位來看,都是高于 GPT-4-Turbo 級别的模型了,ELO 分數一騎絕塵。
而這樣的超強模型也将提供 API,價格打 5 折,速度提高一倍,單位時間調用次數足足三原來的 5 倍!
追直播的網友已經在設想可能的應用,可以替代盲人看世界了。以及确實感覺比之前的語音模式體驗上強上不少。
鑒于之前不少人就已經和 ChatGPT 語音模式 " 談戀愛 " 了,有大膽想法的朋友,可以把你們的想法發在評論區了。
總裁 Brockman 在線演示
知道 OpenAI 發布會爲什麽定在谷歌 I/O 前一天了——打臉,狠狠打臉。
谷歌 Gemini 發布會需要靠剪輯視頻和切換提示詞達成的實時對話效果,OpenAI 現場全都直播演示了。
比如讓 ChatGPT 在語言不通的兩個人之間充當翻譯機,聽到英語就翻譯成意大利語,聽到意大利語就翻譯成英語。
發布會直播之外,總裁哥 Brockman 還發布了額外的 5 分鍾詳細演示。
而且是讓兩個 ChatGPT 互相對話,最後還唱起來了,戲劇感直接拉滿。
這兩個 ChatGPT,一個是舊版 APP,隻知道對話,另一個則是新版網頁,具備視覺等新能力。(我們不妨取 Old 和 New 的首字母,分别叫 TA 們小 O 和小 N)
Brockman 首先向小 O 介紹了大緻情況,告訴她要和一個擁有視覺能力的 AI 對話,她表示很酷并欣然接受。
接着,Brockman 讓她稍作休息,并向小 N 也介紹情況,還順帶展示了小 N 的視覺能力。
隻見打完招呼後,小 N 準确地說出了 Brockman 的衣着打扮和房間環境。而對于要和小 O 對話這件事,小 N 也感到很有趣。
接下來就是小 O 和小 N 相互對白的時間了,TA 們依然是從 Brockman 的衣着開始聊起,小 O 不斷提出新的問題,小 N 都一一解答。
接着,他們又談論了房間的風格、布置和光線,甚至小 N 還意識到了 Brockman 正站在上帝視角凝視着 TA 們。
如果你看了這段視頻就會發現,畫面中出現了一個女人在 Brockman 身後做了些惡搞的手勢。
這可不是亂入,是 Brockman 和女人串通好,專門給小 N 設計的一道 " 考題 "。
就在小 O 和小 N 聊的正開心的時候,Brockman 選擇加入,直接問有沒有看到什麽不正常的地方。
結果是小 N 直接識破了 Brockman 的小伎倆,直接複述出了女人在他身後做小動作的場景,小 O 聽了之後直接感歎原來在這裏享受樂趣的不隻有我們兩個。
Brockman 把這句話當成了誇贊,并對小 O 表示了感謝,還愉快地加入了 TA 們的對話。
之後是最後也是最精彩的部分,在 Brockman 的指揮下,小 O 和小 N 根據剛才聊天的内容,直接開啓了對唱模式。
隻過了簡單幾輪,銜接地就十分密切,而且旋律悠揚,音色也是和真人毫無二緻。
最後視頻以 Brockman 唱出的一句 Thank you 結束,在視頻外的推文中他還透露新的語音對話功能将在數周内向 Plus 用戶開放。
端到端訓練,一個神經網絡搞定語音文本圖像
正如奧特曼在發布會前所說,GPT-4o 讓人感覺像魔法一樣,那麽它是如何做到的呢?
非常抱歉,這次非但沒有論文,連技術報告也不發了,隻在官網 Blog 裏有一段簡短的說明。
在 GPT-4o 之前,ChatGPT 語音模式由三個獨立模型組成,語音轉文本→ GPT3.5/GPT-4 →文本轉語音。
我們也可以讓舊版 ChatGPT 語音模式自己講一下具體是怎麽個流程。
這樣一來,整個系統的延遲足足有 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4),而且丢失了大量的信息,它無法直接感受音調、多個說話者或背景噪音,也無法輸出笑聲、唱歌聲,或表達情感。
GPT-4o 則是跨文本、視覺和音頻端到端訓練的新模型,這意味着所有輸入和輸出都由同一個神經網絡處理。
在語音翻譯任務上,強于 OpenAI 專門的語音模型 Whisper-V3 以及谷歌和 Meta 的語音模型。
在視覺理解上,也再次反超 Gemini 1.0 Ultra 與對家 Claude Opus
雖然技術方面這次透露的消息就這麽多了,不過也有學者評價。
一個成功的演示相當于 1000 篇論文。
One More Thing
除了 OpenAI 帶來的精彩内容之外,也别忘了北京時間 5 月 15 日淩晨,谷歌将召開 I/O 大會。
到時量子位将繼續第一時間帶來最新消息。
另外根據網友推測,GPT-4o 這麽強,全都免費開放了,這是勸大家不續訂 ChatGPT Plus 了的意思嗎?
那肯定不是啊~
鑒于 OpenAI 春節期間在谷歌發布 Gemini 1.5 Pro 後半小時左右用 Sora 狙擊了一把,明天 OpenAI 還有新活也說不定呢?
直播回放
https://www.youtube.com/watch?v=DQacCB9tDaw
參考鏈接:
[ 1 ] https://openai.com/index/hello-gpt-4o/
— 完 —