GPT-4o的“類人”響應速度刺痛Siri？

經濟觀察網記者錢玉娟陳奇傑 北京時間 5 月 14 日淩晨，美國人工智能研究公司 OpenAI 召開春季發布會，發布全新旗艦模型 GPT-4o。該發布會僅在線上進行了不到 30 分鍾，卻引起了 AI 界的廣泛關注。

GPT-4o 的 "o" 代表 "omni（全能）"。OpenAI 稱，與現有模型相比，GPT-4o 在視覺和音頻理解方面尤其出色，這款模型接受文本、音頻和圖像的任意組合輸入，并生成文本、音頻和圖像的任意組合輸出。在英語文本和代碼上，GPT-4o 的性能和 GPT-4 Turbo 模型的性能相匹配，在非英語文本上，GPT-4o 的性能有顯著提高。

GPT-4o 的 " 類人 " 交互能力尤其受到關注。在發布會現場，OpenAI 的工程師對 GPT-4o 說 " 我第一次來直播的發布會，有點緊張 "，GPT-4o 回應他 " 要不你深呼吸一下 "。在工程師略作誇張的大力深呼吸後，GPT-4o 很快說道 " 你這不行，喘得也太大了 "。

金山雲 AI 業務負責人于遊在 GPT-4o 發布後也進行了相關測試。他稱，GPT-4o"TTS（從文本到語音）效果優化明顯 "。在他看來，OpenAI 真正意義上實現着 VPA（虛拟個人助理）的落地。

于遊指出，近幾年無論是學界還是技術界，" 類人 " 應用在 AGI（通用人工智能）領域高速發展，但把多模态、類人語音這些東西完全對齊，放在一個模型當中，如此順暢地将效果展現出來，OpenAI 實現了 " 一個非常重大的工程化進步 "。

GPT-4o 的音頻響應速度已經達到和人類相似的水平。OpenAI 稱，GPT-4o 可以在短至 0.23 秒（平均爲 0.32 秒）的時間内響應音頻輸入，與人類的響應時間相似。而使用語音模式與 GPT-3.5 對話的平均延遲爲 2.8 秒，與 GPT-4 對話的平均延遲爲 5.4 秒。

在浙江大學計算機系統結構實驗室從事大模型相關研究的陳天楚全程觀看了 OpenAI 的發布會。陳天楚稱，GPT-4o 弱化了編程等專業能力，尤其突出了語音模态能力，" 是首個公開、有實用價值的端到端語音對話模型 "。

GPT-4o 的 " 類人 " 交互能力也讓市場關注到 OpenAI 在端側，以及和蘋果公司合作的想象空間。

身在新加坡的 Vibranium Consulting 副總裁陳沛一早打開 ChatGPT 就收到了更新提示，他使用後的感受是 " 這次最大的優化是響應延遲 "。陳沛稱，以前使用 ChatGPT 基本上要 1 秒到 2 秒才能生成，如今流暢度進一步增加。

陳沛稱，GPT-4o 的效果展示讓外界看到 OpenAI 正在推動大模型在手機終端側的落地，因爲 " 語音輸入和生成延遲，一直都不是網頁端的剛需 "。

這也是近期市場的關注焦點之一。日前，有報道稱，蘋果公司接近與 OpenAI 達成協議，将在蘋果手機下一代操作系統 iOS 18 集成 ChatGPT。蘋果還與谷歌就授權 Gemini 聊天機器人進行了談判。

2024 年蘋果全球開發者大會（WWDC 2024）将于 6 月 10 日至 6 月 14 日舉行，并計劃發布 iOS18。

英偉達科學家 Jim Fan 在社交媒體發文猜測，OpenAI 與蘋果 iOS 的集成可能有三個層次：一是蘋果放棄語音助手 Siri，OpenAI 爲 iOS 提煉出更小型、純設備上的 GPT-4o，并可選擇付費升級以使用雲；二是設備将擁有把相機或屏幕傳輸到模型中的功能，可以對神經音頻或視頻編解碼器進行芯片級支持；三是與 iOS 系統級操作 API（應用程序編程接口）和智能家居 API 集成。

相關方均未就上述消息予以公開回應。但在發布會上，OpenAI 稱，蘋果電腦用戶将迎來一款爲 macOS 系統設計的 ChatGPT 桌面應用，用戶可以通過快捷鍵 " 拍攝 " 桌面并向 ChatGPT 提問。

于遊稱，OpenAI 去年發布 GPT-4 後，其付費的高性能版本就已經展現出模型對圖文、語音、視覺等全方位的實時推理等相關能力。現在 OpenAI 通過 GPT-4o 一個大模型将圖文、語音、視覺交互進行了集中展示，還爲未來應用層打開了想象空間，機器完全可以通過識别語音和表情實現與人的交互。

"VPA 的載體會發生變化。" 于遊說，OpenAI 試圖撬動一種新的交互邏輯，伴随人機智能交互方式的改變，不論是硬件端還是軟件端，都極有可能産生一個新的載體，去實現 AGI 系統響應人類強人工智能的需求。