ChatGPT加了多模态，我腦子冒煙了

給自己放個假吧 ChatGPT，再更新的這麽快，網友的腦洞可就跟不上了。

本周一，ChatGPT 宣布了一次重要更新，然後有了全面的多模态能力。

以後你下班騎共享單車回家路上要是感覺車上有什麽故障，可以給零件拍張照直接問它。

然後你回到家了，看到毫無頭緒的冰箱藏品後，ChatGPT 可以告訴你挑哪幾樣出來能做個晚飯。

吃完睡覺，還沒睡意的話，它還能給你一些 ASMR 服務，如果 B 站或者 YouTube 上那幾個博主你已經聽厭了的話。

1985 年 9 月，寫了《看不見的城市》的卡爾維諾因爲突然的中風而去世，這年夏天他因爲頭痛的問題曾去尋求過醫生幫助，主刀醫生說自己從未見過這麽般構造複雜而精緻的大腦。

ChatGPT 從一開始就像一顆無比精美的大腦——并且是看不見的——但它現在終于有了眼睛、耳朵和嘴。

全球網友：那就來吧，筆劃筆劃。

圖源：推特

有人試了試，它基本可以替人做軟件項目的開發了。

一個軟件項目的誕生大概是這樣的：先在白闆上畫線框圖，整理出編排邏輯，然後開始寫代碼，最後生成界面。先在這件事，白闆上的活兒歸你，離開白闆歸它。

一位開發者把自己的線框圖直接拍照扔給 ChatGPT，它直接把軟件寫出來了。

他還玩了些小把戲，比如把編排用并不規整的箭頭表示潦草的替換了位置，ChatGPT 不但看出來了，而且照單全收。

我們大概還是低估了多模态會帶來什麽。

人工智能與人類智力的發展在這裏是相反的。人類先有眼睛，看到了世界之後形成了語言和邏輯，反過來又能更好的描述和理解所看到的世界。人類在 600 萬年曆史間的智力水平提升，就是一個巨型的機器學習熔爐。

而對于 ChatGPT 來說，他已經有了最好的智力水平，已經能夠理解很多事了，限制它的反而是文字對于信息的壓縮，導緻它無法接觸到更複雜的問題。當給這樣一顆大腦一雙眼睛會帶來什麽。也就是讓它被允許直接看到圖像信息，拆解問題的能力開始爆炸。

有人給 ChatGPT 喂了一張 SaaS 軟件的界面圖，并且要求它将其分解爲小的組件并且把所有代碼都寫出來，它真的做到了。

你甚至可以粗暴的給它一個 Unity 的編輯界面截圖，叫它提供一個添加模型動作的流程。

圖源：推特

在開放了多模态能力後，ChatGPT 的理解和推理能力也體現的更直觀了，甚至有點可怕。

給自己一分鍾，看看能否理解這組圖的意思：

圖源：推特

這是 ChatGPT 的解讀：

圖源：推特

" 這組漫畫看起來在強調團隊中溝通、理解和對齊的重要性。"ChatGPT 在最後做了如此總結。

這樣的理解能力給曾經在 Facebook 和 Uber 工作過的 AI 工程師 Pietro Schirano 驚的無話可說。

除了眼睛，還有耳朵和嘴。

此次 ChatGPT 升級背後，語音識别的能力基于開源的 Whisper 模型，聲音的生成能力則基于額外的 TTS（text-to-speech）模型進行，目前語音合成支持五種語音，都是和專業配音演員合作制作而成的。

但眼看着兩個手機裏的 ChatGPT 在你面前自顧自的讨論，關于 " 有沒有用戶試着和你一起唱卡拉 OK 啊？" ——不是問你，是它在問另一個它——好像還是太超前了一點。

另外，它似乎也有做一個心理醫生的潛質。OpenAI 安全團隊的成員 Lilian Weng 在語音模式下和 ChatGPT 做了一次非常情緒化的私人對話，談論壓力、工作與生活的平衡。

" 有趣的是，我感到被傾聽和溫暖 "，Lilian Weng 在推特上說。她建議如果你原來隻是把它當作一個生産力工具，那最好試試它細膩的一面。

圖源：推特

而對于 ChatGPT 本身的進化來說，這次将 2022 年就訓練完成了的多模态能力開放出來，也是在爲未來的進化建立一個新的基礎。

ChatGPT 首席架構師 John Schulman 一個月前在 Pieter Abbeel（John Schulman 在加州大學伯克利分校博士期間主攻強化學習時的導師）的一檔播客節目中表示，他覺得現有數據和模型規模擴展方法能帶來的性能提升可能在一段時間後達到極限，在那之後，算法、數據集、數據集大小以及算力能帶來的提升将逐漸遞減。

" 所以添加多模态功能會帶來極大的性能提升。這能讓模型獲得文本中無法獲得的知識，并有可能掌握純語言模型無法完成的任務。例如，通過觀看與物理世界甚至是與電腦屏幕互動的視頻，模型能獲得巨大收益。所有軟件都是爲人類設計的，如果模型能夠觀察像素并理解視頻，我們就可以使用各種現有軟件或幫助人們使用這些軟件。爲模型賦予新能力，讓模型與新事物互動，将大大增強模型的實際能力。"

那麽下個月的 ChatGPT 又能做到什麽？太期待了。