上手了刷屏一天的GPT-4o，我感覺目前也就那樣。。。

沒有所謂的 AI 搜索引擎，也沒有炸裂的 GPT-5 ，但 OpenAI 還是讓大夥兒感受到了，什麽叫做 "Only OpenAI Can Do" 。

就在今天淩晨， OpenAI 的春季發布會終于是來了。

他們也沒多講幾句廢話，整場發布會就二十來分鍾，其中，最重磅的無異于 GPT-4o 新模型的發布。

關于 GPT-4o 起名的緣由， OpenAI 官方是這麽解釋的： " o " 的全稱是 " omni " ，也就是 " 全能 " 的意思。

之所以說它全能，是因爲它能把文本、視覺、音頻全打通了。換句話說，你跟 GPT-4o 對話就跟真人似的。

最重要的是， GPT-4o 是免費向用戶開放的，不開 Plus 會員也能用，隻不過 Plus 會員要多一些使用次數。

反正跟世超一起蹲守直播的同事們看了，都直呼想要。。。

就連奧特曼也在推特上毫不避諱地，把 GPT-4o 跟科幻電影《 Her 》聯系起來。（這部電影講的是人和 AI 語音助理談戀愛的故事）

評論區的網友們也紛紛表示 " 見證曆史 " " 電影終于要照進現實了 " ，甚至還用奧特曼的照片，整出來了個 " him " 。

玩笑歸玩笑，但世超覺得， OpenAI 這次 GPT-4o 的現場演示效果，特别是實時語音和視頻交互的能力，确實甩了其他現役大模型好幾個車尾燈。

不過光這麽說，大夥兒對 GPT-4o 的感受可能也不深，咱直接來看演示。

像演示人員讓 GPT-4o 從一數到十，中途就嫌它語速太慢了，讓它說快點兒， GPT-4o 能立馬反應過來，後續随時插話它都能瞬間 get 到。

就這一個接一個的連續對話實力，說實話世超還沒在 AI 身上體驗過。

給 GPT-4o 一個麥克風和攝像頭權限，它能分分鍾化身成面試指導官，比方視頻裏的這個老哥，說自己要去 OpenAI 面試，讓 GPT-4o 給點着裝建議。

它迅速 " 打量 " 了下這位老哥，禮貌不失幽默地給出了 " 抓個頭發 " 的中肯建議。但老哥打算走個不聽勸的人設，順手拿出個帽子，問能不能戴它去面試。

GPT-4o 這邊反應賊快，識破了老哥明知故問地惡作劇，順着他的話茬說，也不是不行，最起碼能讓你在人群中脫穎而出。

如果不給世超看演示畫面，光聽聲音我可能會以爲，這就是兩個朋友之間在開玩笑。

當然，以 GPT-4o 的知識儲備和多模态能力，它也有相當正兒八經的應用場景。

一扭頭，就能直接化身成視障人士的眼睛，幫他們識别所在的位置，要是想知道眼前都有啥場景， GPT-4o 也能夠繪聲繪色地描繪出來，甚至還能一步一步指導視障人士打車。

再搖身一變， GPT-4o 還能化身成數學老師，把屏幕的權限開放給它，它能一步步指導你做題，你在題目上寫了啥畫了啥 GPT-4o 也都能看得一清二楚。

有一說一，這跟世超上中學時爸媽請的家教沒啥兩樣。。。

看完官方的案例視頻，相信大夥兒跟世超一樣，已經被震撼得沒邊兒了。

而爲了做到這些， OpenAI 在底層的模型上可是下了不少苦功。

之前咱們用 ChatGPT 的語音對話，都是一輪一輪的來。它得先把咱說的話轉換成文字輸給 GPT-4 ，等 GPT-4 生成文字答案之後，才能再轉成語音輸出。

也就是說，以前和 ChatGPT 語音對個話，它得動用三個模型，一個管音頻轉文本，一個 GPT-4 管文本轉文本，另外還有一個管文本轉音頻。

一整套流程下來，耐心都快給磨沒了，而且中間除非咱們手動暫停，否則根本沒插話的機會。

但 GPT-4o 不一樣，它是一個原生的多模态模型，無論文字音頻，還是視頻啥的，所有的輸入和輸出都在同一個神經網絡裏處理。

這種打娘胎裏自帶多模态的特性，讓 GPT-4o 能夠聽懂好賴話，表達自己的情緒，和它對話也能像吃了德芙一樣絲滑。

不過，上面那些視頻終歸還是 "PPT" ，沒到手實測一波，世超也不敢輕易下定論這玩意兒是不是真的有這麽強。畢竟前段時間， Sora 生成的《氣球人》短片才被傳出加了大量的人類後期。

而在實際用這塊， OpenAI 還是一如既往的狗，嘴上說 GPT-4o 都能免費用，但也要分先來後到，而且功能也慢慢開放。

現在能用上 GPT-4o 的隻有 Plus 賬号，而且最重磅的實時視頻和語音功能，毛都看不着。

但有總歸比沒有強，世超手邊恰好也有個 Plus 賬号，而且官方也說了， GPT-4o 生成的速度還會比 GPT-4 快上兩倍。

所以咱這波，就先提前給差友們試試 GPT-4o 的實力。

先讓它給咱講一個童話故事，順便再畫出整個故事的分鏡圖。GPT-4o 沒猶豫幾秒，庫吃庫吃就開始寫了。

寫完中間也沒帶停頓，直接開始畫分鏡了。

而同樣的問題再抛給 GPT-4 ，它一開始就得磨蹭半天在問題上。。。

講清楚要求後才肯繼續寫，而且寫完之後也不繼續畫分鏡圖，還得等世超我再親自強調一波。

不過雖然 GPT-4 比 GPT-4o 墨迹了不少，但從内容來看，我還是會覺得 GPT-4 會更豐富一點。

再借我司老員工火鍋的照片一用，分别讓 GPT-4 和 GPT-4o 生成一張像素風的圖片。

在生成速度上 GPT-4o 完勝，但要摳細節的話兩個就半斤八兩了。

GPT-4 識别出了火鍋嘴裏叼着的是袋子， GPT-4o 多識别出了一隻拖鞋，非要比的話，其實 GPT-4 的金毛更像火鍋一些。。。

（左邊 GPT-4 ，右邊 GPT-4o ）

接着，我又讓 GPT-4o 把咱差評的 LOGO 換成 3D 圖片，結果它整出來字，翻遍整本新華字典，估計都找不到。

但不識漢字也是曆代 ChatGPT 的老毛病了，換成英文再要求它，你别說，這次出來的整體效果還可以，就是經不起細看，不少英文拼寫都是錯的。。

整個上手試下來， GPT-4o 給我最大的印象就是快，非常快。

但說實話，除了快，世超真沒覺得有啥特别的了，與其說 GPT-4o 是 GPT-4 的智商進化版，倒不如說是把 GPT-4 的交互能力單拎出來強化了一波。

就像奧特曼在博客裏提到的， " 達到人類響應時間和表達水平 " 是 AI 的巨大變化。大模型的終極形态，也應該是讓人和 AI 的交流回歸到最原始、最簡單的形态。

在未來，咱們面對一台電腦、一部手機，直接說話交流，就是最主要的交互方式。

不過這次 GPT-4o 最厲害的殺手锏：視頻交流功能，還沒放出來，等到時候咱能體驗到了再下結論也不遲。

另外，網友們也沒幹坐着，也在各種研究 GPT-4o 的，結果，卻扒出了一些番外的料。。。

也不知道 GPT-4o 的中文語料庫是哪兒來的，裏面有不少的釣魚網站的違禁詞，像什麽 " 日本 x 片免費視頻 " 這類的。

給人老外都整無語了。。

像這樣的樂子，以後指不定還要冒出來不少。但言歸正傳， GPT-4o 的出現确實又給 AI 開了個新副本。

按照之前 ChatGPT 問世之後，其他友商步步緊逼的尿性。世超盲猜，在 GPT-4o 之後，類似的 "Claude-o""Gemini-o" 應該很快就會出現。

剛好明天就是谷歌的 I/O 了，咱們也淺淺期待一手好吧。