" 世界模型 " 是關鍵。
OpenAI 在 2 月 16 日淩晨發布了文生視頻大模型 Sora,在科技圈、媒體和朋友圈引起一連串的震驚和感歎。
一時間,OpenAI 官網公布的由 Sora 生成的炸裂般視頻在網上廣爲流傳。
利用 Sora,隻需要輸入一段文字提示語,就能得到一段長達 60 秒的視頻,其中包含精細複雜的場景、生動的角色表情以及複雜的鏡頭運動,幾可亂真。
網友紛紛驚呼 AI 要讓電影、短視頻、遊戲等行業變天,更有人誇張地驚呼 " 現實世界不存在了!"。
Sora 生成的視頻截圖
人類被 AI 替代似乎又近了一步。
這件事讓我們驚歎 Sora 掀起的新一輪技術變革浪潮,或許不久之後,普通人制作視頻的門檻大大降低,複雜的拍攝、剪輯等工作都會被略掉,人們的想象力和創造力成爲視頻内容競争力的最核心來源。
于是," 一人公司 " 和極小規模團隊也有機會完成以往投入巨大人力、成本的電影和視頻内容。
技術浪潮卷起千堆雪,我們有驚歎和期待,也有被替代和拍碎的擔憂。
但這幾天我觀察到,站在技術制高點上的科學家和很多業内人士讨論最多的還是 Sora 的 " 世界模型 " 問題。
Sora 生成視頻具有極其逼真的畫面和連貫性,有的不仔細看幾乎看不出是 AI 生成的,這并不簡單,需要機器懂現實世界的結構、細節、運動足迹、光影變幻等規律,不違反人的認知,之前一些大模型生成讓人啼笑皆非的圖片,就是明顯不符合現實世界事物的運行規律。
所以有人認爲 Sora 懂物理世界,有了 " 世界模型 " 的雛形。
AI 的世界模型其實可以看作是其心智模型,反映了人工智能系統對自身和外部世界的認知和期望。
拿人類的世界模型來說," 模型 " 這個詞意味着我們了解的所有知識不是以一堆事實的形式儲存起來的,而是以一種能夠體現世界和它所包含的一切這種結構組織起來的。
我們不會記住關于每件物品的一系列事實,而是在大腦中構建了無數個模型,像 " 城門樓子 "" 胯骨軸子 " 的模型,就不是一回事,各自是什麽形狀、怎麽排布以及不同的部分是如何移動和配合工作的。
而爲了認出某樣東西,我們會知道它的外觀和觸感;爲了實現目标,我們會了解世界上的事物在與我們互動時的典型表現,比如咬了一口蘋果,會有什麽樣的咬痕。
但很多科學家認爲 Sora 并不懂物理世界,沒有 " 世界模型 "。
比如圖靈獎得主楊立昆(Yann LeCun)就認爲,僅根據 prompt 生成逼真視頻并不能代表一個模型理解了物理世界,生成視頻的過程與基于世界模型的因果預測完全不同。
而深度學習框架 "Keras" 的作者、谷歌人工智能研究員弗朗索瓦 · 肖萊(François Chollet)認爲,像 Sora 這樣的視頻生成模型确實嵌入了「物理模型」,但問題是:這個物理模型是否準确?它能否泛化到新的情況,即那些不僅僅是訓練數據插值的情形?
Sora 生成視頻也确實出現了不少瑕疵,比如 " 螞蟻巢穴内爬行 " 的 POV 鏡頭,仔細看隻有 4 條腿;" 人在跑步機跑步 " 的視頻是反方向;" 一隻大鴨子走過波士頓的街道 " 中鴨子把人踩沒了。
對此,英偉達高級研究科學家範麟熙(Jim Fan ) 表示,我們可以從兩個角度來解釋這個問題:
(1)可能是因爲這個模型根本沒有掌握物理知識,它僅僅是在無序地拼湊圖像像素;
(2)模型确實嘗試構建了一個内部的物理引擎,但這個引擎的表現還不盡人意。
業内人士認爲,Sora 用了 " 大力出奇迹 " 的方法,用大量數據、大模型和大量算力,底層采用了遊戲、無人駕駛和機器人領域驗證的世界模型,構建文生視頻模型,達到模拟世界的能力。
但這就像通過大量 " 讀圖 " 學習世界運行的規律,雖然也是合理的,但類比人,僅 " 睜眼看世界 " 是學不會牛頓定律等物理學可以演繹的世界規律的。
人類最終不是通過模仿鳥類,而是通過理解空氣動力學而發明了飛機。
Sora 确實是 AI 的又一個裏程碑時刻,必将大力簡化人的勞動,減少人的 " 工具人 " 屬性,可以用來輔助甚至部分擔綱某些工作,但真正替代人或者說颠覆現實似乎還爲時尚早。
所以關鍵或許還是在 " 世界模型 ",那問題來了,我們自己是怎麽構建世界模型的?
前段時間讀了一本書——計算機科學家與神經科學家傑夫 · 霍金斯寫的《千腦智能》,恰好回答了人類是怎麽建立起世界模型的,而他認爲 AI 要真正實現智能,還是得從人的大腦中探尋。
一般來說,複雜動物的大腦會随着時間推移不斷進化,在舊部分基礎上進化出新部分,從而能操縱越來越複雜的行爲。
舊腦部分控制着更原始的行爲,比如呼吸、饑餓、反射反應。而新腦部分也就是 " 新皮質 " 則創造出更複雜的行爲,大多是有智能成分的,比如視覺、語言、音樂、數學、科學和工程。
我們思考問題時,主要也是新皮質在思考。
新皮質雖然展開像桌布那麽大,厚度大約 2.5 毫米,但卻有着非常複雜的皮質算法——
它有幾十個區域,分别負責視覺、聽覺、觸覺、語言、計劃等,而且各區域通過神經纖維束連接;
1 平方毫米的新皮質中就有大約 10 萬個神經元,5 億個神經元之間的連接(稱爲突觸),以及幾千米長的軸突和樹突;
新皮質中随處可見精确且極其複雜的神經回路。
新皮質中的連接
新皮質的基本單位,也可以稱爲是 " 智能單位 " 是 " 皮質柱 ",大約有 15 萬根皮質柱像樂高積木一樣并排堆疊在一起,每個都可以計算任何刺激或感覺(聽覺、嗅覺、觸覺、味覺和視覺)
它能分析和處理輸入信号,無論信号類型如何。因此,每個也可以預測一個輸出。這意味着每個瞬間有 15 萬個預測。大腦皮層以連續時間步長預測了數以千計的現實。
我們目光移動時,皮質柱就對它将要看到的東西進行預測;
要拿起東西,皮質柱就會預測每個手指應該有什麽感覺;
想做一個動作時,皮質柱也會預測将發生什麽。
新皮質能預測最小的刺激物,如杯子把手的質地,而且每根皮質柱,都在進行預測。
但預測是前提是新皮質要知道什麽才是準确的。這主要基于過去的經驗中進行的學習。
新皮質學習的就是世界模型,這種模型是感官輸入、參考系和位置的組合。
感官輸入就像是我們喂給機器的海量數據,不過人的輸入是通過眼耳鼻舌身,基于兩種變化:世界在不斷變化,各種風吹草動都是新的輸入;人在不斷移動,每次移動輸入到大腦的信息會完全改變。
新皮質在事件和感覺之間建立聯系。此外,它将能學習它産生的動作的效果。這是感知運動學習。
感知運動之中,皮質柱也在一刻不停地預測,預測得到驗證時,就意味着大腦中的世界模型是準确的。如果有任何信息輸入與新皮質的預測不一緻,那就會提醒新皮質,它需要更新這部分世界模型。這是在錯誤中分析學習。
還有很重要的一點就是,模型一定要有參考系和位置,皮質柱如果要預測下一個輸入,也必須知道感官的移動方式。
而人的大腦也有對參考系和位置的感知,比如我們把手放在一個物體上,就能大體知道手相對于物體的大體位置,往上碰可能就是杯口,然後意識裏有杯口的形狀、觸感,往下的一系列結構、細節也有意識。
假如沒有參考系和位置的感知,完全不知道相對于物體的位置,就很難預測下一段輸入。
數學中我們用 x、y 和 z 坐标軸來定義某物在空間中的位置,而地理上用經緯度定義地球表面的位置,大腦也會把類似參考系的東西附着在接觸和感知的物體上。
參考系和位置能給大腦帶來三點,一是使大腦了解某物的結構,各部分在空間中怎麽排列。
二是利用參考系來定義一個物體,大腦便可以一次性操縱整個物體。比如一旦我們了解了一輛汽車,就能想象它從不同的角度看是什麽樣子,也能辨别出它在某個維度上是否被拉長了。
三是提供了下一步計劃和移動的方向。比如拿着手機,想按下手機的電源按鈕,大腦知道當前位置和電源按鈕的位置,它就可以計算出手指需要怎樣從當前位置移到新位置。這種計算需要一個與手機位置相關的參考系。
大腦自帶的參考系可能與位置細胞和網格細胞有關,位置細胞能讓人知道身在何處,網格細胞就像紙質地圖上的行和列,覆蓋在所處環境上,兩者一起爲人所處環境創建一個完整的模型。
大腦不會保存每個事物的圖像,而是保存興趣點。這就像你的腦海中有世界的多重網格。對于大腦來說,世界是一系列記憶(動态)。需要位置來關聯位置和記憶,因爲它可以讓你找到自己的路并移動。
大腦中的連接存儲着我們通過經驗學習的世界模型。每天我們都會經曆新的事物,并通過形成新的突觸來爲模型添加新的知識片段。
15 萬根皮質柱每根都是一個完整的系統,它們可能會對同一個動作同時做出成千上萬種預測,每根皮質柱的感知都會進行傳播,同時接收來自其他皮質柱的預測,最常見的猜測會勝過最不常見的猜測,直到整個網絡确定一個答案。有種類似 " 票選 " 的機制。
所以依據人腦的原理,作者認爲智能系統可以用四個标準來構成:
一是機器需要不斷學習。機器需要從錯誤中學習以更新其世界模型。
二是機器需要通過運動來學習。運動可以表征位置。如果缺少的話,對世界的表示将有偏差。
三是機器需要創建很多模型。新皮質的每個皮質柱學習一個包含數千個對象的模型,解決綁定問題(一個獨特的感知)的過程是通過投票進行的。一台機器需要獲取相同的進程。
四是機器需要使用參考系來存儲知識。思考是一種運動。它是通過連接參考系中的點而出現的。如果機器不能使用運動,它就不能思考。
可能在未來幾十年裏,我們不用擔心人類被徹底替代,更不用擔心科幻小說裏那種 AI 産生意識、奴役人類的噩夢。但我們可能會越來越依賴機器和算法爲我們提供便利,甚至做決定。
傑夫 · 霍金斯在他的書中反複提及人其實對自己的大腦知之甚少,有很多未解之謎,對人的研究太少,這才是我們更應該擔心的。因爲與跟發展人工智能的熱情相比,我們不太注重研究人的意識,那麽計算機有了極先進的人工智能之後,可能隻會增強人類的 " 自然愚蠢 "。
當先進的算法更了解我們,更會觸發我們的情緒,并且運用這種神奇的能力找到我們深層次的焦慮、恐懼來推銷,甚至操縱。當我們沉浸于 Sora 爲我們打造的視覺盛宴和奇幻世界而不再對現實和自然進行感知運動學習,不再豐富我們自己的世界模型。這才是最危險的。
事實上,人工智能還沒來操縱我們,就有很多賣課人僅利用人工智能的概念就捕獲了幾十萬人的焦慮,賺得盆滿缽滿。
Sora 還沒讓我們沉浸于視覺盛宴和虛拟世界難以自拔,我們就被直播和短視頻撩得難以脫身。
大家都在玩手機,隻有人工智能在翻資料,啃數據。
參考資料:
1、 [ 美 ] 傑夫 · 霍金斯《千腦智能》,浙江教育出版社
2、機器之心《Sora 到底懂不懂物理世界?一場頭腦風暴正在 AI 圈大佬間展開》
3、新智元《Sora 不懂物理世界,翻車神圖全網爆笑!LeCun 馬斯克激辯世界模型》
4、尤瓦爾 · 赫拉利《今日簡史:人類命運大議題》,中信出版社
5、賽博禅心《中學生能看懂:Sora 原理解讀》