OpenAI 又改寫了一次曆史,在今日淩晨上線了一款能接受文本、音頻、圖像多模态輸入與輸出,表達自然流暢、并能讀懂情緒起伏的智能助手 GPT-4o。更重要的是,它可被放入桌面和手機端,并完全免費。壓力被急劇轉移到了谷歌、蘋果身上;未來幾天," 科技春晚 " 還将輪番上演。
作者 | 董溫淑
編輯 | 李 原
運營 | 劉 珊
最近一周,科技行業熱鬧非凡,大型 " 臉對臉 " 開打的 " 科技春晚 ",更将輪番上演。
5 月 14 日淩晨,OpenAI 2024 年春季發布會上線。如今這家巨頭的每次動向,都存在再度 " 颠覆 " 一個行業的可能,既讓 AI 創業者們翹首以盼,更讓大家緊張萬分。
雖然這場 OpenAI 的發布會僅持續了 28 分鍾,業内也早有劇透——不會有傳說中的 ChatGPT 5,也不會直接對标谷歌做 AI 搜索;但發布會的效果,仍然震驚四座。
此次 OpenAI 推出的是一款桌面版 ChatGPT,該模型被稱爲 GPT-4o。其中 "o" 代表着 "omni"(全能)。在演示中,這一 " 全模态 " 模型不僅能接受文本、音頻、圖像的任意組合輸出,并可跨領域進行推理與展示——最重要的是,其反應速度最短達到了 232 毫秒,完全可做到與人類在正常對話中同頻。
演示中,GPT-4o 像個真實的人類一樣,可以被打斷,也可做到語态聯想。當它被裝入手機時,能通過喘氣聽懂用戶的歎息、疲憊,使用體驗易用自然、功能強大。
OpenAI 同步宣布了 " 獲客 " 大殺器:GPT-4o 可以被安裝至桌面和手機端,并向所有人免費開放,API 定價隻有 GPT-4 Turbo 的一半,速度達到 GPT-4 Turbo 的 2 倍,付費的 ChatGPT Plus 用戶将獲得 5 倍調用額度。
壓力被急劇轉移到谷歌、蘋果等巨頭身上。北京時間 5 月 15 日淩晨,谷歌也将上線 "I/O 大會 ",據傳谷歌将在會上公布大模型最新進展,并将發布類似 GPT-4o,在 Gemini 加持下的、名爲 "Pixie" 的個人數字助理。
本月 21 日,微軟也将召開 "Build 開發者大會 ",市場猜測其大概率會将 OpenAI 最新能力集成到自家産品線中。
另據外媒報道,蘋果在此次發布會前,已與 OpenAI 達成合作。在 6 月的蘋果 "WWDC 大會 " 上,ChatGPT 會不會被塞入 iPhone 之中,以取代 " 招人恨 " 的 Siri,也非常值得期待。
28 分鍾,幹翻所有語音助手
一場大範圍預熱,将 OpenAI 發布會的懸念提前拉滿。
發布會前,OpenAI 創始人、CEO 山姆 · 奧特曼先早早否定了對标谷歌,上線 AI 搜索的傳聞。他稱,"(新功能)對我來說就像魔法一樣 "。OpenAI 語音 AGI 研究領導 Alexis Conneau 更直接将自己的社交媒體主頁背景,改成了一張電影《Her》中的劇照——這是一部講述人與 AI 助手 " 薩曼莎 " 相戀的科幻電影。
外界甚至爲奧特曼編排出了一個與 AI 助手相愛的浪漫故事。發布會結束後,山姆也順水推舟地,在自己的 X 賬号上,隻發表了一個單詞—— "Her"。
▲(圖源 / 網絡)
不過當看過 OpenAI 的最新産品後,觀衆們驚呼,《Her》中的劇情真的進入了現實。
發布會上展示的 GPT-4o,仿佛是一個真實的 " 朋友 " 坐在身邊。它反應迅速,語調流暢自然,情緒飽滿,會跟随着你的情緒興奮起來,也能根據上下文給出豐富的對話細節,揣摩對話者的情緒。
例如,當 OpenAI 的研發負責人 Mark Chen 上台時,他對着 GPT-4o 說:" 我站在台上有點緊張,該怎麽辦?"GPT-4o 回答:" 你太棒了,深呼吸一下吧,記得你可是個專家。"Mark Chen 随之大聲喘氣,問 GPT-4o 接下來還能給些什麽建議,對方回答:" 放松點 Mark,呼吸得慢一點,你又不是吸塵器。"
▲(圖源 /OpenAI)
接下來,GPT-4o 被要求給大家講個睡前故事。沒講幾秒,它就被 Chen 打斷,要求能不能多點情緒和戲劇性。随即,GPT-4o 語調更加起伏和誇張。Chen 又對其要求:能不能再來點情感,最戲劇化的表達可以嗎?GPT-4o 顯然讀懂了 " 戲劇化 " 的含義,随即拿出了戲劇演員一樣誇張的語調——有趣的是,當 GPT-4o 又被要求唱歌時,它甚至自己先歎了口氣。
在此過程中,GPT-4o 的反應速度也令人深刻。據計算,它對音頻輸入的響應時間最短爲 232 毫秒,平均爲 320 毫秒,這與人類在對話中的響應時間相似。
語音聊天外,GPT-4o 還表現出了多模态理解和輸出能力。它能夠跨聲音、文本和視覺進行智能推理,可以就用戶給出的截圖、照片,或含有文本和圖像的文件展開對話。
此外,GPT-4o 也能生成任何文本、音頻和圖像的組合。并能在輸出中,識别人類的感情,根據感情做出 " 有情緒的反應 "。
爲了快速 " 獲客 ",這樣強大的助手,OpenAI 準備交給用戶免費使用,并可在電腦桌面運行。據官方介紹,OpenAI 優化了用戶界面,用戶隻需要關注如何與 ChatGPT 協作。可想而知,這樣一位免費的 AI 助手,可以随時陪你聊天、看圖表、寫日程,它将爆發怎樣的巨量使用場景。
打到谷歌、蘋果家門口
盡管 OpenAI 此次沒有亮出 GPT-5 這樣的大招,從業界反饋看,其展現出的技術能力升級足以令人再度感到震驚。
據騰訊科技報道,根據 OpenAI 官網最新博客文章顯示,在 GPT-4o 上線之前,使用語音模式與 ChatGPT 對話,平均延遲爲 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。爲實現這一點,ChatGPT 語音模式是由三個獨立的模型組成的流水線:一個簡單的模型将音頻轉錄爲文本,GPT-3.5 或 GPT-4 接收文本并輸出文本,第三個簡單的模型将該文本再轉換回音頻。
在這個過程中,GPT-4 會丢失很多信息,它不能直接觀察語調、多個說話者或背景噪音,也不能輸出笑聲、歌唱或表達情感。
而 GPT-4o 之所以能表現出更自然、更貼近人類的情感,源于其是單獨訓練的新模型。因此,可以端到端地處理文本、視覺和音頻,這意味着所有輸入和輸出都由同一個神經網絡處理。
▲(圖源 /OpenAI)
這款被 OpenAI 能力強大優化了的桌面 App 與手機端助手,其所打開的想象力,也威脅到了一衆巨頭的蛋糕。例如,許多人最直接的反應是:它已經達到了全面 " 吊打 "Siri 的水平。
有趣的是:據外媒報道,發布會前一天,蘋果與 OpenAI 的合作已秘密達成。雖然合作方式尚不可知,但不少人猜測:OpenAI 的技術将會在蘋果新品中集成亮相。
另外多模态人工智能助手的賽道裏,最大的玩家本來還站着谷歌。
2023 年 12 月,谷歌發布了 Gemini 模型 1.0 版本,開始便定義其爲 " 原生多模态大模型 ",希望打通語言、聽力、視覺信息的輸入輸出能力。2024 年 2 月,Gemini 上新了 1.5 版本。
5 月 15 日,OpenAI 發布會一天後,谷歌 "I/O 大會 " 即将舉辦,Gemini 的更新發布本是關注重點。但 OpenAI 爆冷發布語音助手,無疑會将關注度從 Gemini 身上奪走不少。
不過這種在發布會前被搶風頭的 " 糟心事 ",谷歌已經不是第一次經曆。2023 年 12 月,谷歌原定上線 Gemini 時,OpenAI 便在 11 月搶先舉辦了首屆開發者大會。爲此,Gemini 的上線時間一度被傳,要被延後到 2024 年初。
這一次,面對 OpenAI" 騎臉 " 開打,谷歌也不甘示弱地做出了反擊,很快在官方賬号裏放出了語音助手的 demo 實時演示。
▲(谷歌 I/O 大會語音助手 Demo。圖源 / 網絡)
谷歌旗下人工智能研究機構 DeepMind 的 CEO 和聯合創始人 Demis Hassabis、谷歌 AI 工作室産品負責人及 Gemini API 研究人員 Logan Kilpatrick 紛紛下場表示,自己将在本屆 I/O 大會上 " 首秀 "。
兩大巨頭在實時語音助手戰場正面交鋒,讓看客直呼精彩。但也有人給谷歌先潑了涼水,評價道:"Sorry Google but we got it one day earlier(對不起谷歌,但我們一天前已經得到這個了)。"
競争對手們怎麽辦?
十年前," 科技春晚 " 還是蘋果發布會的代名詞。十年之後,主角已然輪換。
不得不承認," 百模大戰 " 國内外已膠着對戰了一年多,但每每在市場中扛起 " 議程設置 " 标杆角色的,仍非 OpenAI 莫屬。接下來,圍繞 GPT-4o 多模态功能更新的交互體驗,也勢必将掀起市場中的新一輪攻防大戰。
此前,市場在曝光了 OpenAI 可能發布 AI 搜索産品、硬剛谷歌之時,已有各路大 V 下場,激辯 "AI 搜索 " 的未來。GPT-4o 的最新體驗,也爲還在苦苦追趕的國内 AI 創業市場,平添了許多緊張氣氛。
不過,從業界的綜合觀察來看,國内創企亦不必覺得節奏被 OpenAI 追逐得難以喘息。比如,OpenAI 沒有選擇上線 GPT-5,本身亦是大模型訓練 " 卷 " 至高階,也逐漸進入到瓶頸期的反映。
作爲目前在研的 OpenAI 最新一代大模型,GPT-5 被視爲有望對現有模型形成碾壓級超越的産品。其性能、售價等因素,也将直接影響市場的發力方向。
而從 2022 年 11 月到 2023 年 3 月,OpenAI 很快完成了從 ChatGPT(基于 GPT-3.5)到 GPT-4 的跨越,但 GPT-5 的發布目前還沒有具體時間表。
有關 GPT-5 的亮相時間,市場已經存在多個版本。此前,OpenAI 官網曾預計 GPT-5 将在 2023 年第四季度推出,随後發布時間推遲。如今市場傳聞稱,GPT-5 有望于年中、今夏發布;亦有媒體援引内部人士消息稱,GPT-5 或将于 2024 年 11 月份亮相。
而就在剛剛過去的 4 月,還有許多人在網上曬出了 OpenAI 發出的 " 紅隊測試邀請 " 郵件截圖。在 AI 行業," 紅藍對抗測試 " 是保證大模型安全性的重要方式,測試人員通過不斷地挑戰模型,以便提前對漏洞 " 查漏補缺 "。因此,市場猜測雖然 OpenAI 未标明模型版本,但 GPT-5 或許已經接近發布。
也有業内人士猜測,GPT-5 的 " 姗姗來遲 ",或因 OpenAI 研發遇到某種天花闆。與此同時,OpenAI 在今年 2 月 16 日發布的重磅文生視頻模型 Sora,雖然看起來技驚四座,但 OpenAI 至今仍未開放使用 Sora,更遑論商業落地。
▲(Sora 生成的 MV 畫面。圖源 / 網絡)
在專業人士看來,Sora 越快開放使用,就能提早完善問題、重塑商業流程。
音視頻協作軟件 " 分秒幀 " 創始人程剛對「市界」講道:" 我們目前看到 Sora 存在幻覺問題、精準度問題、對物理世界的理解,以及模拟不準确所帶來的邏輯問題、版權溯源和版權保護問題,以及有人濫用工具去生成虛假内容的問題等等。這些問題當然會影響 Sora 在商業場景中的使用。"
但他判斷:"Sora 叠代的速度,基本可以參照 ChatGPT 的叠代速度。Sora 對現實模拟不準确的問題,比如手有六指,(如果放開使用)應該半年左右就能得到比較大的優化。"
© 市界原創出品,未經授權,請勿轉載
溝通建議郵箱:[email protected]
商務需求請聯系:13811292543
如無特殊說明,圖片均來自視覺中國