Sora 注定死路一條!Yann LeCun 跟 OpenAI 徹底幹上了
近日,OpenAI 發布的視頻生成模型 Sora 成爲全球焦點。與以往隻能生成幾秒鍾視頻的模型不同,Sora 可生成長達 60 秒的高清視頻。
英偉達高級研究科學家 Jim Fan 斷言,Sora 是一個數據驅動的物理引擎,是一個可學習的模拟器,或 " 世界模型 "。OpenAI 也聲稱 Sora 是 " 擴展視頻生成模型是構建物理世界通用模拟器的一條可行之路 "。這些說法讓很多普通人感到非常恐慌,擔心這代表了人工智能已經有能力理解人類真實世界,因此這或許代表着人類末日的開始。
而圖靈獎得主 Yann LeCun,作爲一位 " 世界模型 " 的倡導者,他認爲 OpenAI 的 Sora 并不理解物理世界,今天他更是直接說 Sora 對 " 世界模型 " 的實現方式,注定是死路一條。
Yann LeCun 火力全開
之前, OpenAI Sora 研發成員 Aditya Ramesh 發布了一個關于一隻螞蟻 " 在蟻巢内部移動的視角鏡頭 " 的視頻,但視頻裏面的螞蟻隻有四條腿。
Yann LeCun 随後對其喊話:"Aditya,螞蟻難道不是有 6 條腿嗎?"" 作爲曾在我實驗室待過的學生,我擔保他知道螞蟻有 6 條腿!"
4 條腿的螞蟻的确不符合真實世界的實際情況,Yann LeCun 也認爲根據提示詞生成看似真實的視頻絕不代表系統真的理解物理世界。
這樣的圖像生成跟世界模型的因果預測間仍然存在重大差異。或者說,讓視頻内容看似合理的空間非常大,視頻生成系統隻需生成其中 " 一種 " 樣本即可算作成功。但真實視頻的合理連續空間要 " 小得多 ",而且生成其中的代表性圖塊更是一項極爲困難的任務,在涉及各種動作的情況下更是如此。
此外,他還強調,這種連續生成不僅成本高昂,而且完全沒有現實意義。
在今天的推文中,他更是直言 Sora 這種通過生成像素來對真實世界建模 " 不僅是種浪費,而且注定将要失敗 ",如同現在已經被基本放棄的 " 合成分析 " 技術一樣。
Yann LeCun 解釋說,幾十年前,機器學習領域曾經就生成式方法與判斷式分類方法的優劣對比展開過一場大辯論。數學家 Vapnik 等機器學習理論研究者明确反對生成式方法,認爲生成模型的訓練要比分類模型更困難(從樣本複雜性角度出發)。總而言之,整個計算機視覺領域普遍認定像素的生成應該從解釋潛在變量入手。畢竟在推理過程中,人類就是在根據觀察到的像素推斷出反映規律的潛在變量。正确的推理方法還涉及優化部分:比如使用對象的 3D 模型并嘗試找到能夠重現圖像的姿态參數。遺憾的是,這個路子一直沒能徹底走通,而且速度非常緩慢。
後來,有些人選擇了貝葉斯路線,嘗試使用貝葉斯推理來推斷潛在變量(例如使用變分近似及 / 或采樣)。非參數貝葉斯與潛在狄利克雷分配都在某種程度上主導過文本建模,有些人開始勇敢嘗試借此識别圖像中的具體對象。但這同樣是一場徹頭徹尾的失敗!
Yann LeCun 認爲,如果現在的目标是訓練出用于識别或規劃真實世界的模型,那麽在像素層面進行預測肯定不是什麽好主意。
隻能說生成技術恰好适用于文本,因爲文本内容屬于離散的、數量有限的符号。在這種情況下,預測過程中的不确定性更容易處理。相比之下,對高維連續感官輸入中的不确定性進行預測則非常困難。
正因爲如此,依靠感官輸入的生成模型注定将會失敗。
Yann LeCun 認爲的 更好的辦法是什麽?
作爲人類,我們對周遭世界的了解和大部分知識(特别是在童年時代)主要是依靠觀察而來。以牛頓運動定律爲例,即使是未經任何引導的幼兒或者小動物,也會在多次觸碰并觀察之後意識到,一切抛擲的物體終将落向地面。是的,隻需一點觀察,而非耗費幾個小時的指導或者閱讀上千本學術著作。我們内心深處的世界模型(基于世界心理模型的情境理解能力)完全可以準确預測結果,而且效率非常高。
所以 Yann LeCun 認爲實現 " 世界模型 " 的方式,應該是讓機器智能像人類般學習、建立起周遭世界的内部模型,從而高效學習、适應并制定計劃以完成種種複雜的任務。
這也是他提出的 JEPA(Joint Embedding Predictive Architecture,聯合嵌入預測架構)的核心特點所在:它并不是在 " 生成 ",而是在表示空間中進行預測。
在他前幾天發布的推文結尾,他又給大家安利了一遍 JEPA 的論文和他們的試驗結果表:
截圖來源: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
備受矚目的視頻 JEPA
V-JEPA 是一種非生成模型,通過預測抽象表示空間中視頻的缺失 / 遮蔽部分來進行學習。這種方法與圖像聯合嵌入預測架構(I-JEPA)對圖像抽象表示的比較(而非直接比較像素本身)有異曲同工之妙。不同于嘗試填充每個缺失像素的生成式方法,V-JEPA 能夠靈活丢棄各種不可預測的信息,從而将訓練與采樣效率提高 1.5 至 6 倍。
由于 V-JEPA 采用自監督學習方法,因此可以純依靠未經标注的數據進行預訓練。這些标簽僅在預訓練之後被用于保證模型能夠适應特定任務。事實證明,這種類型的架構比以往模型更加高效,不僅訓練需要的标注示例更少、在學習未标注數據方面投入的總工作量也更低。借助 V-JEPA,Meta 在這兩項指标上均迎來了改進。
使用 V-JEPA,研究團隊遮蔽掉了視頻中的大部分内容,借此讓模型僅能觀察到小部分上下文。之後,再要求預測器填補缺失的空白——請注意,填補過程并非根據實際像素,而是依托表示空間中更抽象的内容描述。
在學習潛在空間中,V-JEPA 通過預測被遮蔽的時空區域來訓練視覺編碼器
遮蔽方法
V-JEPA 的這種理解并非來自對某一特定操作類型的訓練;相反,它是在一系列視頻之上完成了自監督訓練,并借此掌握了大量關于真實世界運行規律的知識。
研究團隊還認真設計了遮蔽策略——如果不遮擋視頻中的大塊區域,而是随機在各處覆蓋内容,那麽任務就會變得過于簡單,導緻模型學不到真實世界中的任何複雜規律。
另外需要注意的是,在大多數視頻中,對象随時間推移的變化其實相對緩慢。如果隻遮蔽特定時刻下視頻中的某個部分,而模型仍能觀察到緊随其前 / 其後的内容,任務同樣會變得過于簡單,導緻其無法學習到有趣的知識。因此,研究團隊采取一種方法,在空間與時間兩個維度上遮蔽視頻的部分内容,強迫模型學習并加深對于場景邏輯的理解。
保證在抽象表示空間中進行預測同樣非常重要,這樣模型才能專注于實際視頻内容所反映出的更高級别概念信息,而忽略掉那些對于下遊任務意義不大的各類細節。舉例來說,如果視頻畫面中是一棵樹,那麽就并不需要關心每片葉子的細小運動。
高效預測
V-JEPA 是首個擅長 " 凍結評估 " 的視頻模型,換句話說,模型的編碼器與預測器均可實現自監督預訓練,研究人員不必再做具體操作。想讓模型掌握一項新技能,隻需要額外訓練一個小型輕量級專業層、或者在其上訓練一個小型網絡,整個過程更加高效快速。
少樣本凍結評估:将 V-JEPA 與 Kinetics-400 和 Something-Something-v2 等其他視頻模型中的凍結評估進行比較,這裏我們改變了每套數據集上可用于訓練注意力探針的标注示例百分比。我們在幾種少樣本設置中進行探針訓練:分别對應訓練集中 5%、10% 和 50% 的數據,并在每種情況下進行三輪随機比較以獲得更穩健的指标,也就是分别對每套模型進行 9 次不同的評估實驗。表中列出了官方驗證的 K400 與 SSv2 驗證集的平均值與标準差。V-JEPA 的标記效率的确高于其他模型,而且可用标注示例數量越少,V-JEPA 相較于其他模型的性能優勢也越明顯。
以往的生成式模型要求我們進行全面微調,就是說在模型預訓練完成之後,如果希望模型能夠真正掌握對細粒度動作的識别能力、利用它來處理實際任務,還需要更新所有模型中的參數或者權重。之後,該模型總體上隻能執行一類特定任務,而不再适用于其他任務類型。
如果想要引導模型學會執行多種任務,則需要提供不同的數據,并針對新任務對整個模型進行特化。而正如 Meta 在研究中所演示的那樣,使用 V-JEPA,我們可以在沒有任何标注數據的前提下對模型進行一次預訓練、修複相應問題,然後重複利用模型中的相同部分處理多種不同任務,例如動作分類、識别細粒度對象交互及活動定位等。
V-JEPA 是一種從視頻中學習表示的自監督方法,适用于各類下遊圖像及視頻處理任務,且無需調整模型參數。V-JEPA 在圖像分類、動作分類及時空動作檢測等任務的凍結評估方面,優于以往的視頻表示學習方法。
雖然 V-JEPA 中的 "V" 代表視頻,但并不是說它的适用範圍就僅限于視頻内容。後續 Meta 還将采用其他多模态方法,并認真考慮将音頻與視覺效果結合起來。
雖然目前 V-JEPA 還隻能在較短的時間維度上發揮作用——比如在不超過 10 秒的視頻片段中準确識别不同對象的行爲。但 Meta 接下來的另一項研究重點,在于如何調整模型以在更長的時間範圍内實現準确預測。
目前的結果證明,Meta 目前可以直接用視頻數據訓練 JEPA 模型,而不再需要大量監督和介入。它會像嬰兒般從視頻中學習,憑借被動觀察世界來學習有助于理解内容上下文的背景知識。這樣,隻須配合少量标注數據,就能讓模型快速獲得執行新任務、識别各種動作的能力。