一句話讓小姐姐爲我換了N套衣服，谷歌卷出視頻生成新高度

魚羊發自凹非寺

量子位 | 公衆号 QbitAI

谷歌一出手，又把 AI 視頻生成卷上了新高度。

一句話生成視頻，現在在名爲 Lumiere 的 AI 操刀下，可以是醬嬸的：

△ " 陽光明媚，帆船在湖中航行 "

如此一緻性和質量，再次點燃了網友們對 AI 視頻生成的熱情：谷歌加入戰局，又有好戲可看了。

不止是文生視頻，Lumiere 把 Pika 的 " 一鍵換裝 " 也複現了出來。

左谷歌右 pika，同樣是選中區域一句話完成視頻編輯，你 pick 哪一邊？

讓圖片中靜止的火焰躍動起來，也同樣一選就能完成：

還有圖片轉視頻：

視頻風格化：

總之就是主打一個質量又高又全能。

更多細節，我們論文扒起 ~

用于視頻生成的時空擴散模型

Lumiere 旨在解決以往視頻生成中存在的幾個關鍵問題：

真實性

多樣化

運動的連貫性

在此前的方法中，常見的做法是，擴散模型先生成一些稀疏的關鍵幀，而後通過一系列時間超分辨率（TSR）模型來填補關鍵幀之間的空白，接着再用空間超分辨率模型獲取高清視頻結果。

可以想見，在全局連貫性上，這樣的做法存在先天的缺陷。

Lumiere 的創新點在于，提出了時空 U-Net（STU-Net）架構：将視頻在空間和時間兩個維度同時進行下采樣和上采樣，在網絡的中間層得到視頻的壓縮時空表示。

具體來說，基于這一架構，模型能夠一次性生成視頻中的所有幀——這也就提升了生成視頻的連貫性。

同時，因爲大部分計算發生在壓縮後的表示上，STU-Net 能有效減少計算量，降低對計算和内存的需求。

另外，爲了提升視頻的分辨率，研究人員使用多重擴散（MultiDiffusion）技術，通過線性加權空間超分辨率網絡來處理重疊時間窗口帶來的邊界僞影等問題，從而能将生成畫面融合爲一個整體，得到連貫、高清的視頻效果。

時長和分辨率方面，Lumiere 能輸出 1024 × 1024、16fps 下長 5 秒的視頻。

研究人員提到：

5 秒已經超過了大多數視頻作品中的平均鏡頭長度。

值得一提的是，得益于時空 U-Net 架構端到端全幀率視頻生成的能力和高效計算，Lumiere 靈活可擴展，可以輕松應用到下遊任務中，包括文生視頻、圖生視頻、視頻風格化、視頻編輯修複等等。

△視頻修複

實驗結果

研究人員将 Lumiere 與其他文本 - 視頻生成模型進行了實驗對比。

首先來看人類用戶的判斷。

實驗設計是這樣的：志願者會同時看到一對視頻，一個來自 Lumiere，另一個來自其他基線模型。志願者被要求從中選出視覺質量、動态效果更好，更符合文本提示的視頻。

研究人員收集了大約 400 份反饋，結果顯示，在視頻質量、文本匹配度方面，Lumiere 超越了 Pika、Gen2、Imagen Video、SVD 等一衆頂級視頻生成模型。

同時，在 UCF101 數據集（動作識别數據集）上，與 MagicVideo、Make-A-Video、SVD 等模型相比，Lumiere 取得了具有競争力的 FVD 和 IS 指标。

網友：谷歌，模型呢？

效果很驚豔，網友很興奮，但橋豆麻袋……

這次，谷歌依然隻放出了論文，沒有試玩，更沒有開源。

這種似曾相識的操作，把人快整麻了：

視頻很不錯，但是谷歌，你又不打算發布任何代碼、權重，也不提供 API 了，對嗎？

還有人想起了 Gemini 發布時那個造假的小藍鴨視頻……

那麽，這波你還會看好谷歌嗎？