家人們,我們先來看一段視頻,你能否發現其中有什麽異樣?
如果說,在這段視頻裏,有一個物件是假的,是被合成進去的,你能發現嗎?
不賣關子,現在就來揭曉答案。
" 造假 " 的物體,正是這個出現在不該出現位置的紅綠燈。
我們再來玩一把 " 大家來找茬 ",請看題目:
答案是:放在置物架上的這個設備。
這就是來自小鵬汽車最新的一項研究——Anything in Any Scene。
主打一個往真實環境裏毫無違和感地 " 塞 " 進去任何東西。
并且研究團隊給予這個通用框架的評價是:
它的應用遠遠超出了視頻數據增強的範圍,在虛拟現實、視頻編輯和其他各種以視頻爲中心的應用中顯示出巨大的潛力。
甚至有網友在看完效果之後直呼:
再見了視頻證據 ~ 這個技術插入視頻的物體可以保持與原始素材相同的真實感。
那麽這項 AI 技術更多效果如何,我們繼續往下看。
Anything in Any Scene
先從室外場景來看下效果。
在視頻中合成某個物體的時候,往往不逼真的原因,可以總結爲位置放置錯誤、無陰影、無 HDR 和無樣式遷移等原因。
正如下面幾個錯誤案例所示:
而小鵬團隊的效果,是這樣的:
相比剛才缺少各種因素的情況而言,效果顯然是相對逼真的。
再與其它已有的算法和框架做比較,例如 DoveNet、StyTR2 和 PHDiffusion,它們在室外場景中合成物體的效果是這樣的:
小鵬的 Anything in Any Scene 從效果上來看,依舊是相對更爲逼真。
同樣的,在室内環境中,不論是包包還是鞋子,小鵬新 AI 技術所生成的效果可以說是真假難辨的那種了。
更多的效果展示如下圖所示:
除了視覺效果之外,小鵬團隊在 CODA 數據集的原始圖像上,将訓練的 YOLOX 模型的性能與 Anything in Any Scene 框架在原始和增強圖像的組合上訓練時的性能進行了比較。
從整體精度上來看也有了不小的提高。
怎麽做到的?
從此次提出的框架上來看,Anything in Any Scene 主要由三個關鍵部分組成。
首先是物體放置和穩定化的過程。
團隊先确定相機在場景中的世界坐标系位置,并将其作爲物體插入的參考點;使用相機的内參矩陣和姿态(旋轉矩陣和位移向量)将世界坐标系中的點投影到像素坐标系中,以确定物體在視頻幀中的放置位置。
爲了避免與場景中其他物體的遮擋,團隊還使用語義分割模型估計每個幀的分割掩模,并确保物體放置在未被遮擋的區域。
在物體穩定化方面,團隊在連續幀之間估計光流,以跟蹤物體的運動軌迹;并通過優化相機姿态(旋轉矩陣和位移向量),最小化物體在連續幀中的 3D 到 2D 投影誤差,确保物體在視頻中的穩定運動。
其次,是光照估計和陰影生成。
針對 HDR 全景圖像重建,團隊使用圖像修複網絡推斷全景視圖的光照分布,然後通過天空 HDR 重建網絡将全景圖像轉換爲 HDR 圖像;并結合使用 GAN 訓練編碼器 - 解碼器網絡來模拟太陽和天空的亮度分布。
在環境 HDR 圖像重建方面,研究人員則是收集了場景的多視角 LDR 圖像,并通過現有模型恢複爲 HDR 圖像,以學習連續曝光值表示。
在物體陰影生成上,團隊則是使用 3D 圖形應用(如 Vulkan)和光線追蹤技術,根據估計的主要光源位置生成插入物體的陰影。
最後的步驟,則是照片風格遷移。
框架對插入物體的外觀進行微調,使其風格與背景視頻完美融合,進一步提升了視頻的逼真度。
這便是小鵬 Anything in Any Scene 在真實環境中生成物體較爲逼真的原因了。
而與小鵬此次研究類似的效果,其實早在之前便有了許多工作。
例如名爲GAIA-1的多模态生成式世界模型,便可以從頭到腳的打造逼真的自動駕駛視頻:
這裏的每一幀都是由 AI 生成,甚至就連不同的路況和天氣等等,都是可以做到以假亂真。
就連 LeCun 看了都驚歎不已:
不過這些 AI 效果雖真實,但也有網友提出了擔憂之處,那便是網上虛假、生成的信息越發的逼真;因此,以後辨别信息的真假需要更加警惕。
目前,這個項目已經在 GitHub 中開源,感興趣的小夥伴可以了解一下了