文 | 周鑫雨
編輯 | 蘇建勳
六根手指、機器貓圓手……手部細節一直是圖像生成式 AI 的盲區。
用 Midjourney 生成的圖,手部有 6 根手指。
而如今,這一圖像生成的阿喀琉斯之踵有望被 Meta 破解。6 月 14 日,Meta 推出了 I-JEPA(Image Joint Embedding Predictive Architecture, 圖像聯合嵌入預測架構),實現無需手動變換圖像對額外知識進行編碼的情況下,生成基于世界常識的圖像。
這一研究由紐約計算量子物理中心研究院 Anna Dawid,以及圖靈獎獲得者 Yann LeCun 共同提出—— I-JEPA 也被視作繼 LeCun 提出 " 世界模型(World Model)" 構想後,第一個卓有成效的進展。
從自回歸到世界模型
爲何圖像生成模型普遍難以精确生成手部?其根本原因在于以自回歸爲框架的模型缺乏對現實世界的常識。
在自回歸框架下,模型利用當前的上文信息對下文信息進行預測。應用至圖像生成領域," 圖像像素 " 則成了上下文信息:自回歸模型通過将訓練圖像轉換爲一維序列輸入,利用 Transformer 轉換器自回歸預測圖像像素。
這一方法的優勢在于可以很好地建立像素和高級别屬性,如紋理、語義和尺寸等屬性之間的關系。但劣勢依然明顯,由于缺乏常識,模型對圖像像素的預測時常違反常理,比如 " 六根手指 " ——這也造成了自回歸模型常出現的 " 幻覺 " 現象。
LeCun 認爲,想要讓 AI 接近人類水平,其需要像嬰兒一樣學習世界如何運作。由此,他提出了 " 世界模型 " 的概念,解決方案即爲 JEPA(聯合嵌入預測架構)。
JEPA 通過一系列的編碼器提取世界狀态的抽象表示,并使用不同層次的世界模型預測器,來預測世界的不同狀态,并在不同的時間尺度上做出預測。
LeCun 在論文中提出的基于 " 世界模型 " 的自主化 AI 的模塊化結構。圖源:論文
在智源大會的演講中,LeCun 有關 " 層級規劃 " 舉了一個例子:我想從紐約前往北京,第一件事是去機場,第二件事是乘去往北京的飛機,最終的代價函數(cost function)可以表示從紐約到北京的距離。那麽我該如何去機場?解決方案是把任務分解到毫秒級,通過毫秒級的控制來找到預測成本最小的行動序列。
LeCun 表示,所有複雜的任務都可以通過這種 " 分層 " 的方式完成,而層次規劃則是其中最大的挑戰。
邁向 " 世界模型 " 的第一步
爲何說 I-JEPA 是邁向 " 世界模型 " 的一步?
從訓練原理來看,I-JEPA 預測的并非是圖像像素,而是抽象的預測目标。其中的預測器能夠從部分可觀察的上下文中,對靜态圖像中缺失的空間進行模拟。
基于圖像的聯合嵌入預測體系結構:使用單個上下文塊來預測來自同一圖像的各種目标塊。圖源:論文
I-JEPA 訓練過程:給定一張圖像,從中随機抽取 4 個目标塊,比例範圍爲 ( 0.15,0.2 ) ,寬高比範圍爲 ( 0.75,1.5 ) 。接下來,随機采樣一個範圍爲 ( 0.85,1.0 ) 的上下文塊,并删除任何重疊的目标塊。在這種策略下,目标塊是相對語義化的,而上下文塊在保證信息量足夠大的同時又很稀疏 ( 處理效率高 ) 。圖源:論文
爲了理解可觀察的内容,Meta 訓練了一個随機解碼器和生成模型,将 I-JEPA 預測的内容映射爲像素,再輸出爲預測的内容草圖。
I-JEPA 預測器可以正确地捕捉空間的不确定性,并正确生成預測對象的部件 ( 例如,鳥的背部和汽車的頂部 ) 。圖源:論文
從效果而言,I-JEPA 的計算效率遠高于主流計算機視覺模型。比如 Meta 在 72 小時内用了 16 塊 A100 訓練了一個參數規模爲 632M 的視覺 Transformer 模型,所用 GPU 小時數是一般方法的 1/10 到 1/2,并且在相同訓練數據量下,誤差率更低。
與以前的方法相比,I-JEPA 所需的計算量更少,性能更強:與 MAE 和 data2vec 相比,I-JEPA 所需的預訓練時間更少。與 iBOT 相比,I-JEPA 所需的手動标注的數據更少。與此同時,最大的 I-JEPA 模型 ( ViT-H/14 ) 比其他兩款中最小的模型 ( ViT-H/16 ) 所需的計算更少。圖源:論文
I-JEPA 已經顯示出世界模型在圖像生成上的作用。可預見的是,JEPA 在視頻、音頻等更多模态的預測和生成中将發揮作用。目前,I-JEPA 的訓練代碼和模型檢查點已在 GitHub 上開源。
延伸閱讀
I-JEPA 論文鏈接:https://arxiv.org/pdf/2301.08243.pdf
JEPA 原理解釋論文鏈接:https://arxiv.org/abs/2306.02572
GitHub 鏈接:https://t.co/DgS9XiwnMz
歡迎交流