近期,生成式人工智能(AIGC)領域又湧現出多款創意十足的新應用。
今天,钛媒體 AGI 梳理了免費 AI " 神器 " 系列第十四彈,共五款,其中不少産品再一次拓寬了我們對 AI 的想象力。
120 秒超長 AI 視頻模型—— StreamingT2
即插即用的視頻轉視頻框架—— AnyV2V
谷歌圖生視頻模型—— Vlogger
文本轉視頻模型—— Hotshot ACT-1
AI 視頻生成模型—— Motion-I2V
1、120 秒超長 AI 視頻模型—— StreamingT2
産品信息:StreamingT2 是由 Picsart AI Research、UT Austin 和 Shi Labs 的研究團隊共同開發的一款文生視頻模型,該模型突破了以往 AI 視頻長度限制,可生成長達 2 分鍾的長視頻。StreamingT2 的發布将視頻生成技術推向了新高度,也被稱爲 Sora 的強勁對手。
産品功能: StreamingT2V 可以根據用戶的文字提示生成長達 120 秒的長視頻,同時,StreamingT2V 将條件注意力模塊(CAM)和外觀保持模塊 ( APM ) 核心構架結合,使得生成的視頻與文本描述緊密相關且動态連續,展現高動态效果和時間一緻性。
此外,StreamingT2V 的實現方法分爲初始化、Streaming T2V 生成和 Streaming Refinement 三個階段,保證了視頻生成的高質量和高分辨率,并且 StreamingT2V 的高效能并不局限于特定的模型,這意味着随着技術的進步,視頻質量還有進一步提升的空間。
項目及演示:https://streamingt2v.github.io
論文地址:https://arxiv.org/abs/2403.14773
2、即插即用的視頻轉視頻框架—— AnyV2V
産品信息:AnyV2V 是一款無需訓練,即插即用的 AI 視頻編輯框架,該框架由滑鐵盧大學、Vector Institute 和 Harmony.AI 團隊共同開發,旨在幫助用戶簡化視頻創作流程,提高視頻制作效率。
産品功能:AnyV2V 不僅支持對源視頻進行深度編輯與修改,還能按照輸入文本提示,主題或風格等,生成對應新視頻。
具體來看,AnyV2V 将視頻編輯簡化爲了兩個主要步驟:首先,AnyV2V 可以插入任何現有的圖像編輯工具,從而支持多個視頻編輯任務。其次,AnyV2V 可以插入任何現有的圖像視頻模型,執行 DDIM 反轉和中間特征注入,從而保持與源視頻的外觀和運動一緻性。
此外, AnyV2V 還可以支持視頻編輯任務,包括基于參考的風格轉換、主題驅動編輯和身份處理。
項目地址:https://tiger-ai-lab.github.io/AnyV2V/
論文地址:https://huggingface.co/papers/2403.14468
3、谷歌圖生視頻模型—— Vlogger
産品信息:Vlogger 是谷歌推出的一款圖生視頻技術框架,該框架是基于 MENTOR 數據庫訓練而來,數據庫中包含超過 80 萬名人物肖像,以及累計超過 2200 小時的影片,使得 VLOGGER 可以生成不同種族、不同年齡、不同穿着、不同姿勢的人物視頻。
産品功能:用戶隻需上傳一張人物圖片+音頻文件,就能實現讓人物開口說話,生成一段人像與音頻完美貼合且流暢的視頻,并能做到視頻中人物面部表情及肢體動作都相當自然且生動。
團隊成員表示,和業内此前的同類方法相比,VLOGGER 最大的優勢體現在不需要對每個人進行訓練、也不依賴于面部檢測和裁剪,并且生成的視頻很完整(既包括面部和唇部,也包括肢體動作)等等。此外,Vlogger 還具有視頻編輯和翻譯等應用,能夠讓人物閉嘴、閉眼,甚至進行視頻翻譯。
項目地址:https://enriccorona.github.io/vlogger
4、文本轉視頻模型—— Hotshot ACT-1
産品信息:Hotshot - ACT 1 是一款由 Hotshot Research 開發的文本生成視頻模型,該模型基于大規模高分辨率文本視頻語料庫訓練,注重空間對齊、時間對齊和審美質量,旨在爲視頻創作者提供高質量的視頻創作體驗。
産品功能:用戶隻需輸入文本描述,即可生成動畫風格的視頻。同時可以根據自身需求選擇不同的寬高比和分辨率輸出,定制化自己的視頻内容。
體驗地址:https://hotshot.co/act-one
5、AI 視頻生成模型—— Motion-I2V
産品信息: Motion-I2V 是一款 AI 視頻生成模型,能夠根據一張靜态圖片生成連貫且可控制的視頻。
産品功能:能實現圖像到視頻的自動轉換,能夠将靜态圖像自動轉換成連貫的動态視頻,通過模拟圖像中對象的自然運動,使靜态圖像動起來。同時支持用戶精确控制視頻中的運動軌迹和運動區域,使得生成的視頻不僅流暢連貫,而且用戶可以通過簡單的操作控制視頻内容。
此外,基于其先進的運動增強和時間注意力技術,無需額外的訓練樣本,Motion-I2V 就能實現視頻風格轉換,比如從現實風格轉換成漫畫風格。
項目主頁:https://xiaoyushi97.github.io/Motion-I2V/
論文地址:https://huggingface.co/papers/2401.15977
(本文首發于钛媒體 APP,作者 | 章橙,編輯 | 林志佳)