小鵬公然AI“造假”，啧啧啧 - 青年圖摘

家人們，我們先來看一段視頻，你能否發現其中有什麽異樣？

如果說，在這段視頻裏，有一個物件是假的，是被合成進去的，你能發現嗎？

不賣關子，現在就來揭曉答案。

" 造假 " 的物體，正是這個出現在不該出現位置的紅綠燈。

我們再來玩一把 " 大家來找茬 "，請看題目：

答案是：放在置物架上的這個設備。

這就是來自小鵬汽車最新的一項研究——Anything in Any Scene。

主打一個往真實環境裏毫無違和感地 " 塞 " 進去任何東西。

并且研究團隊給予這個通用框架的評價是：

它的應用遠遠超出了視頻數據增強的範圍，在虛拟現實、視頻編輯和其他各種以視頻爲中心的應用中顯示出巨大的潛力。

甚至有網友在看完效果之後直呼：

再見了視頻證據 ~ 這個技術插入視頻的物體可以保持與原始素材相同的真實感。

那麽這項 AI 技術更多效果如何，我們繼續往下看。

Anything in Any Scene

先從室外場景來看下效果。

在視頻中合成某個物體的時候，往往不逼真的原因，可以總結爲位置放置錯誤、無陰影、無 HDR 和無樣式遷移等原因。

正如下面幾個錯誤案例所示：

而小鵬團隊的效果，是這樣的：

相比剛才缺少各種因素的情況而言，效果顯然是相對逼真的。

再與其它已有的算法和框架做比較，例如 DoveNet、StyTR2 和 PHDiffusion，它們在室外場景中合成物體的效果是這樣的：

小鵬的 Anything in Any Scene 從效果上來看，依舊是相對更爲逼真。

同樣的，在室内環境中，不論是包包還是鞋子，小鵬新 AI 技術所生成的效果可以說是真假難辨的那種了。

更多的效果展示如下圖所示：

除了視覺效果之外，小鵬團隊在 CODA 數據集的原始圖像上，将訓練的 YOLOX 模型的性能與 Anything in Any Scene 框架在原始和增強圖像的組合上訓練時的性能進行了比較。

從整體精度上來看也有了不小的提高。

怎麽做到的？

從此次提出的框架上來看，Anything in Any Scene 主要由三個關鍵部分組成。

首先是物體放置和穩定化的過程。

團隊先确定相機在場景中的世界坐标系位置，并将其作爲物體插入的參考點；使用相機的内參矩陣和姿态（旋轉矩陣和位移向量）将世界坐标系中的點投影到像素坐标系中，以确定物體在視頻幀中的放置位置。

爲了避免與場景中其他物體的遮擋，團隊還使用語義分割模型估計每個幀的分割掩模，并确保物體放置在未被遮擋的區域。

在物體穩定化方面，團隊在連續幀之間估計光流，以跟蹤物體的運動軌迹；并通過優化相機姿态（旋轉矩陣和位移向量），最小化物體在連續幀中的 3D 到 2D 投影誤差，确保物體在視頻中的穩定運動。

其次，是光照估計和陰影生成。

針對 HDR 全景圖像重建，團隊使用圖像修複網絡推斷全景視圖的光照分布，然後通過天空 HDR 重建網絡将全景圖像轉換爲 HDR 圖像；并結合使用 GAN 訓練編碼器 - 解碼器網絡來模拟太陽和天空的亮度分布。

在環境 HDR 圖像重建方面，研究人員則是收集了場景的多視角 LDR 圖像，并通過現有模型恢複爲 HDR 圖像，以學習連續曝光值表示。

在物體陰影生成上，團隊則是使用 3D 圖形應用（如 Vulkan）和光線追蹤技術，根據估計的主要光源位置生成插入物體的陰影。

最後的步驟，則是照片風格遷移。

框架對插入物體的外觀進行微調，使其風格與背景視頻完美融合，進一步提升了視頻的逼真度。

這便是小鵬 Anything in Any Scene 在真實環境中生成物體較爲逼真的原因了。

而與小鵬此次研究類似的效果，其實早在之前便有了許多工作。

例如名爲GAIA-1的多模态生成式世界模型，便可以從頭到腳的打造逼真的自動駕駛視頻：

這裏的每一幀都是由 AI 生成，甚至就連不同的路況和天氣等等，都是可以做到以假亂真。

就連 LeCun 看了都驚歎不已：

不過這些 AI 效果雖真實，但也有網友提出了擔憂之處，那便是網上虛假、生成的信息越發的逼真；因此，以後辨别信息的真假需要更加警惕。

目前，這個項目已經在 GitHub 中開源，感興趣的小夥伴可以了解一下了 ~

參考鏈接：

[ 1 ] https://anythinginanyscene.github.io/

[ 2 ] https://arxiv.org/abs/2401.17509

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~