谷歌VideoPoet大模型上線，生成長達10秒視頻，還可自動配音

文｜王怡甯

編輯｜鄧詠儀尚恩

Google 又又又發布了新模型，這次是在文生 / 圖生視頻賽道又 " 卷 " 了一把對手們。

12 月 19 日，谷歌專門發了一款搞視頻生成的模型VideoPoet，不僅能支持根據視頻加入音頻效果，允許交互編輯，更重要的是，VideoPoet 現在可以生成更長的視頻了。簡而言之，這次的模型看起來更加全能了。

看過 Demo 後的網友們直接表示：

好牛，所以什麽時候能用上？

圖源：Twitter

向電影更進一步，加入音效延展時長

近期的 AI 生成視頻賽道的新模型層出不窮，網友們被信息轟炸地應接不暇，看到新模型的第一反應大概就是：這次的模型有什麽不一樣？哪裏最有看頭？

不得不說，雖然 VideoPoet 已經是 Google 本月發布的第 N 個模型了，但質量和效果依然在線，在功能上也有不少突破。

圖源：VideoPoet

當然，VideoPoet 還有不少新的看點。

加入音頻效果

以往的文生視頻和圖生視頻幾乎都是在 " 卷 " 畫面的清晰度，這一次，Google 注意到了被忽視的音效，讓 AI 在生成視頻的基礎上，還能在沒有任何文本提示詞的情況下，根據視頻内容生成相應的音頻。

在官方放出的 Demo 裏，VideoPoet 就自動爲正在吃爆米花的小狗配上了 " 咔擦咔擦 " 的音效，效果逼真。告别 " 默片時代 "，AI 生成視頻離電影和動畫距離又近一步。

視頻時長顯著提升

看一圈目前做 AI 視頻生成的工具，一個最大痛點就是，時長普遍在 2-4 秒。比如 Stability AI 的 AI 視頻生成模型 Stable Video Diffusion，也有這個問題。

究其原因，主要是訓練素材受限等方面，這多少也讓人覺得有些意猶未盡。

不過，VideoPoet 巧妙地通過重複的方法延長了視頻長度，即讓 AI 根據前一個視頻的最後一秒接着預測下一秒的内容。這種方法不僅大大擴展了視頻長度，還能做到對原視頻内容的高保真呈現。

Prompt:

An astronaut starts dancing on Mars. Colorful fireworks then explode in the background." 一個宇航員開始在火星上跳舞，五顔六色的煙花在背景中爆炸。

加入交互編輯功能

時長是延長了，萬一對生成的視頻不滿意，怎麽辦？

沒關系，VideoPoet 都能改，而且還給用戶提供了更多的選擇空間。

以下面這個機器人爲例，當用戶輸入原始視頻（即左側第一段）後，VideoPoet 就能自動生成中間三段不同動作的視頻。如果用戶想要更豐富的效果，還可以添加新的提示詞，如 " 在背景中加入煙霧 "，來生成更豐富的效果。

類似的，用戶也可以精準控制從圖像生成視頻的過程，比如像下面這樣讓蒙娜麗莎轉頭和打哈欠。

Prompt：

Left: "A woman turning to look at the camera." Right: "A woman yawning." 用不同的提示動畫一幅畫。左 : " 一個女人轉向鏡頭。" 右 : " 一個女人打哈欠。"

攝像機動作

除了讓圖片中的人物動起來，要想讓畫面更有鏡頭感，VideoPoet 也能行。支持添加運動類型，爲生成的視頻提供模拟攝像機運鏡的效果，還有縮放、無人機拍攝等多種視角可供選擇。

支持視頻風格化

此外，VideoPoet 還有多種風格選擇。不管是讓小鼠一秒穿越到夏威夷，還是讓泰迪熊去湖上滑冰，在 VideoPoet 上都可以通過輸入提示詞輕松實現。

放棄擴散模型，做多功能大模型

除了上面這些有意思的效果，VideoPoet 的特别之處在于——其底層是一個大語言模型。如果用學科簡單打比方，好比一個吟詩作對的文人，現在也能扛起攝像機去做影視制作。

從技術角度來看，當前主流的視頻生成模型幾乎都是基于擴散模型（Diffusion Model）的，但 Google 的開發團隊認爲，LLM 在語言、代碼和音頻等各種模式上擁有更卓越的學習能力，因此他們選擇将多種不同的視頻生成功能（如文生 / 圖生視頻、視頻風格化、視頻修補）集成到單一的大語言模型中。

本質上看，這是兩種深度學習架構的不同。LLM 的工作原理是通過計算單詞或詞組之間的概率關系，根據上下文來預測接下來最可能出現的單詞或詞組。而擴散模型則是通過逐步去除加入到原始數據中的随機噪聲，來生成數據。

同時，LLM 的技術已經相對成熟，這也意味着團隊在開發過程中可以重複使用被驗證過的有效方法和基礎設施，讓訓練更加高效。

VideoPoet 還訓練了一個自回歸語言模型，讓模型能夠跨視頻、圖像、音頻和文本模式進行學習。這些設計也确實讓 VideoPoet 看起來更加全能了。

從測評效果來看，對比其他的視頻生成模型，用戶認爲 VideoPoet 在文本保真度上的得分顯著高于其他模型，即 VideoPoet 能更準确地遵循用戶的提示詞并生成視頻。

One More Thing

雖然已經是 2023 年的年底，多模态賽道的玩家們卻都還在搶着發布新模型，爲本就熱鬧的市場又增加了一把熱度。

勤奮如 Google，一個月内連發好幾款新模型。也有蓄勢待發的 Midjourney，時隔 9 個月後終于要發布 V6 版本。據第一批參與标注的網友反饋，V6 在處理圖片的層次、光影和皮膚紋理等細節上都有了質的提升，讓人不由期待即将發布的正式版本。

網友借 Midjourney V6 生成

國内的大廠們近期也有不少動作，前有騰訊和港科大聯合推出的 VideoCrafter1，後有字節的 Magic Animate，更别提兩個月内一連發了 Animate Anyone、Animate Anything、DreaMoving 等一系列模型的阿裏。

盡管視頻生成領域還有很多技術難點等待攻克，不過 VideoPoet 這樣集成多功能的大語言模型，也爲圖生視頻領域未來的發展提供了更多的想象空間。

掃碼加入「智湧 AI 交流群」

歡迎交流