圖片來源 @視覺中國
文|李智勇
OpenAI 9.25 發了個關于多模态版本的 Blog 說 chatGPT 現在能夠看、聽、說了,體驗過的同學反饋還不錯,那這意味着什麽?
應用 > 純粹的智能改進
同純粹的智能提升相比多模态是一種應用可能性的提升。如果說原本的大模型甕中之腦,那多模态無疑是把給這個甕中之腦接上和現實世界相聯的觸角。
從技術上,這意味着之前這是在多種算法的綜合上發力,而不是單純的強調智能這一個維度。這種銜接在過去其實是吃力的,OpenAI 看起來也沒把這問題解決的特别好,所以在文章中貼了這麽一小段:
這啥意思呢?其實是說語音識别通用度不好,反過來推測一點就是語音識别還沒有自己的大模型。希望 OpenAI 能在這種綜合和銜接上取得進展。
值得一提的是,這種方向和很多人心心念念的 GPT5 是不完全重疊的,GPT5 更像是讓甕中之腦更爲強大,而多模态綜合則是讓現有大腦的智力得到更好的發揮。如果 OpenAI 貼着多模态走,那意味着他們在戰略上把應用放到了更前面。這是對的,并且和人類的大腦産生智能的情況更貼近。人類大腦皮層是相似的,但因爲感知反饋處理内容不同而分成了不同的功能區來處理聽覺、視覺和味道。
OpenAI 如果真的如預期在這條路上徹底跑通商業模式,那無疑是對整個行業的最大刺激,也會給自己打下超級巨頭的堅實基礎。
從應用上這意味着應用範圍的拓寬。那裏需要多模态呢?顯然是物理空間。純粹的甕中之腦其實是把應用局限在數字空間,而多模态則打通數字和物理世界。最直接的,這類能力會激活多模态的應用。
典型的多模态應用是什麽呢?是 PokemanGo
介于純粹的數字世界和純粹的物理世界之間就是這種增強現實的場景,沒多模态這類應用根本玩不轉。
在過去這做起來成本太高了,算法的綜合像一道天塹一樣,讓隻有很少的公司才能做,而做的人裏面隻有很少的人才能成功,而綜合後的大模型如果能削減這個壁壘,那顯然的這類應用就可以像當年的 App 一樣,隻承擔産品化的部分,進而迎來自己的大普及。
但多模态的路線所影響的卻不隻是這類增強現實應用,它的影響需要放在整個 AI 産品化進程的角度來看,才更清楚。
過去十年 AI 的創業其實是失敗的,但核心的好處是讓我們把所有的坑都趟了一遍,更容易在這些失敗的基礎上,看清和經營未來的現實。
(華爲的戰略從側面反映過去這十年硬應用的探索,重點可以回想 N)
背後隐含的産品路線
我們畫下不精确的産品路線圖。
遞進次序是純粹數字空間,數字和物理空間融合,硬件産品,機電類産品,另一個軸是智能的多模态程度,如:單一維度的通用智能和多模态的通用智能,那産品分布會是:
如果再加個維度,每一類中再有兩類:一類是幻覺無礙的,一類是需要解決幻覺問題的。
那麽很可能就可以得到這次大模型驅動的産品落地的次序。産品上會從軟應用到硬應用再到機械應用,特征上會從幻覺有益到需要對沖。
這麽說可能不容易懂,我們拿過去的産品做個類比(嘗試的好處就這麽出來了,可以舉例子)。
同樣是對話,客服是軟應用,智能音箱是硬應用,招待機器人則是機械應用。
這些産品看着超級像,但每加一部分外延都導緻遊戲規則有巨大變化。
軟應用的輸入相對容易标準化,到硬應用則變的麻煩,在語音上過去我們用近場和遠場來形容這種差異。都是對話,需不需要解決環境幹擾問題導緻的産品複雜度會有巨大差異。到現在爲止,智能音箱其實也沒徹底解決這問題,你在邊上放電視它一樣會變不好使。
類似的準備好圖片的人臉識别和真實場景的人臉識别有同樣問題。後者沒準就需要在光線沒那麽好的情景下處理問題。
硬應用同機械應用比自身的穩定性會形成更多問題。比如機器人突然間脖子扭的角度不對,或者一條狗跑來跑去的時候腿瘸了,即使還是能夠聽說,那産品體驗也會出現巨大起伏。
詳細挖掘差異還會有很多,也許看着沒那麽大,但真做産品這種細小差異是忽略不得的。
如果把純粹數字的新特征比喻成是一個巨大的氫氣球,可以四處亂跑,成本不高。那硬應用差不多相當于挂塊磚頭,機械應用則像挂一個小鉛球。挂的東西論體積遠不如氣球,但對氫氣球能不能飛起來影響是巨大的。
爲了它能飛起來,最好的辦法是尊重新的環境條件,然後配個大引擎變成飛機。而變飛機顯然是個系統工程。
上面這種産品分類正好也就是 Agent 的分類。多模态的進展同樣會打開 Agent 的範圍。真做這類産品,打造自己的飛機,核心依賴會是什麽呢?
參照:AI Agent:大模型與場景間的價值之橋,但不适合當純技術看
回到系統型超級應用:多模态 Agent 的典型架構
典型 Agent 的運行狀态是這樣:
這看着很常識,但其實帶來一個巨大挑戰。
你的多模态大模型是統一的,但你的應用是分散的。(單一産品的集成這問題不大,但那反倒是特例)
大模型的通用能力,需要一種通用的通路才能很好的輸出去,否則就像武俠小說裏說的内功很好,但經脈很差,沒的發揮。
爲了把這種通用能力發揮出去,最關鍵的就是需要對感知一側進行通用的抽象和管理。
這裏面有個依賴次序,各種應用本質上依賴多模态大模型,但多模态大模型依賴多模态的感知。
這種依賴遞進影響什麽呢?
影響特征的傳導次序,本質上被依賴方的特征會傳導到後者去,後者隻能扛着。反向傳播則影響要小的多。
比如多模态感知在産品上肯定具現成五花八門各種産品,然後數據從各種傳感器來,傳感器會完成模拟到數字的轉化,所以出來的基本都是結構化數據。
這就導緻必然出現過去操作系統中的硬件抽象層,是個傳統工作要解決基礎架構問題,要有一個抽象層覆蓋五花八門的設備。
多模态應用則要充分利用大模型的特征,這時候接口形态都會發生巨大變化。會從傳統的 API 一點點變成現在的 NLI。你需要适應大模型的基礎特征,比如面對前面提到的幻覺問題。API 的調用值是變化的,但它的 Schema 是穩定的,是在限定的 Schema 下返回各種值。但 NLI,則 Schema 也是打開的。這就不好應對需要确定結果的場景。是真正的挑戰。
分層并分割這種應用後得到什麽呢,會得到系統型超級應用。
參照:AI 個體戶的崛起:普通人 " 屁胡 " 的機會、模式和風險
系統型超級應用的極簡例子
我們舉個最簡單的例子:
假設你想給自己做個數字分身,打理自己在各個平台上的活動。
那麽對個人而言,你需要創建基本人設、風格(風格要考慮目标平台場景的特征)等。你的應用基于這種人設通過 NLI 和大模型進行交互産出對應的圖文、視頻等内容。
内容産出後希望能覆蓋抖音、視頻号等,那這部分要能自動操作對應的平台,并從對應平台抓取反饋再進行進一步的産出。這部分操作和反饋的方式其實是平台定義的。
這時候就會發現多模态大模型的能力是共通的,人設是共通的,但平台相關操作是個性化的,所以如果真想做簡單了,那就需要區隔這三層,通用大模型給平台操作部分的指令總是:發布 XX,平台操作部分的反饋總是,當前評論是 XX,還是 API 和 HAL 的範疇。但基于人設、風格、熱點等産出内容的部分則完全不一樣了,肯定是要走 NLI 的。典型的操作系統三層分割,但面向應用一端接口會有很大變化。
小結
和朋友閑聊時有時會說提到:如果放在一個大的時間軸上看,那麽起于百餘年前的社會變革其實遠未結束,而我們猶在變革之中等待下一個穩定态。同樣的把時間刻度縮小,再把這個視角挪回來看人工智能那其實是一樣的,過往一切關于智能硬件的嘗試都會換個樣子重來,螺旋遞進,尋找自己下一個穩定的形式。