視頻生成模型大亂鬥。
今年 2 月 OpenAI 通過 Sora 的發布,爲 AI 視頻生成明确了依靠 DiT(Difffusion Transfomer)架構獲得突破的技術路徑。随後,快手、阿裏巴巴、字節跳動、美圖、生數科技、智譜 AI、MiniMax 紛紛入局其中,持續提升着 AI 視頻生成的賽道熱度。
9 月,國産視頻生成大模型迎來了目前最重要的一輪爆發:
8 月 31 日,MiniMax 正式發布視頻模型 video-01,拉開了紅毯儀式的序幕。
9 月 19 日,阿裏雲 CTO 周靖人在雲栖大會上發布全新視頻生成模型。同日,快手發布可靈 1.5 模型,内部評測整體效果比可靈 1.0 模型提升了 95%。
9 月 23 日,美圖公司宣布美圖奇想大模型完成視頻生成能力的升級。
9 月 24 日,字節跳動旗下火山引擎發布了 PixelDance 和 Seaweed 兩款視頻生成大模型。
9 月 26 日,美圖公司又向所有用戶開放了 AI 短片創作工具 MOKI。
9 月 30 日,可靈又上線了「對口型」功能,支持對生成的人物上傳音頻内容,并宣布正式全面開放 API,上線了 AI 創作社區「創意圈」。
國慶假期,國外視頻生成大模型領域也迎來了新變化。當地時間 10 月 4 日,Sora 團隊研發負責人 Tim Brooks 宣布離職加入 DeepMind,繼續從事視頻生成和世界模拟器方面的工作。
同日,Meta 對外公布了新的大模型 Movie Gen。該模型支持根據文本提示創作視頻和音頻内容,并允許用戶添加特效、道具、服裝或對生成内容中的部分元素進行簡單調整,可生成最長 16 秒的 1080P 視頻。Meta 認爲,Movie Gen 旨在處理從個性化視頻創作到複雜的視頻編輯和高質量音頻生成等任務,并計劃于 2025 年在 Instagram 落地應用。

從國内到國外,巨頭與創業公司攜手結束了視頻生成大模型你方唱罷我登場的紅毯儀式,開始面向具體場景尋找快速落地、生效、獲益的路徑。
01 四個共性特征
在過去的 7 個月時間裏,不同企業圍繞視頻生成大模型進行的探索呈現出了四個共性特征。
第一,視頻生成大模型的叠代速度更快,效果提升更顯著。從單一模型來看,快手可靈截止 1.5 版本發布,已經進行了 9 次叠代,并且在上線 1.5 模型的同時,還在爲 1.0 模型增加新的能力。從不同模型來看,近期發布的視頻生成大模型在生成效果上都有比較明顯的提升。
第二,幾乎所有視頻生成大模型都是現貨供應,極少有像 Sora 一樣的期貨産品。阿裏巴巴發布視頻生成大模型之後,即日就能在通義 App 和通義萬相網站上面向所有用戶開放。字節跳動的視頻生成大模型發布之後,火山引擎總裁譚待也表示,豆包視頻生成大模型不是「期貨」,已經在内測 API 和應用,國慶節後會放出更多公開 API。
第三,現貨的前提下,全量開放和限制次數的免費使用成爲國産視頻生成大模型的共同選擇。可靈在 7 月 23 日就實現了全量開放,非會員每日登陸可以獲得 6 個視頻生成份額。阿裏強調視頻生成功能在手機 App 端不限量免費使用。MiniMax 也在海螺 AI 官網上開啓了對視頻生成功能的限免體驗。相較而言,每月向 Runway 支付 105 元,才可以獲得生成 10 個視頻的權益。
第四,可生成的視頻類型越來越豐富,清晰度越來越高,細節越來越逼真,視頻一緻性和長度不斷提升,運動軌迹越來越符合物理規律。
可靈 1.5 模型支持最長 2 分鍾的 30 幀 1080P 高清視頻。豆包視頻生成大模型支持生成黑白、3D 動畫、2D 動畫、國畫等多種風格、适配不同畫幅比例的視頻内容。通義視頻生成大模型支持最長 5 秒、每秒 30 幀的 720P 視頻生成,并能生成與畫面匹配的音效,呈現發絲随風飄動、水滴上的陽光折射等細節。

這些共性特征特征的出現意味着,不同于 OpenAI 在 Sora 上展現出了「世界模拟器」的野心,國産的視頻生成大模型從誕生起,就選擇的是一條更落地、更現實的進化路徑——讓快速叠代的視頻生成大模型融入和優化現有的視頻創作流程。
對于大模型創業公司而言,就像 MiniMax 創始人闫俊傑所說,人類每天消費的大部分内容都是圖文和視頻,文字的占比并不高,具備輸出多模态内容能力的大模型能夠獲得更高的用戶覆蓋度和使用度。
對于擁有視頻業務和用戶積累的成熟企業而言,大模型可能意味着一個重新分配蛋糕的機會,也意味着深挖已有用戶潛力的可能,最不濟,對大模型的投入也能夠在一定程度上幫助企業降低被擠下牌桌的風險。
02 不同大模型有不同的突破口
從差異性上來看,内容平台在視頻生成大模型上已經展現出了一定的優勢。從 Sora 發布至今,快手的可靈與字節跳動的豆包視頻生成大模型分别在兩個不同的時間點收獲了最高光的關注。并且,可靈和豆包視頻生成大模型拿出的功能特點更能切中實際的使用需求。

可靈 1.5 模型可以一次性生成最多 4 條視頻,提升了抽卡效率,圖生視頻的時長也提高到了 10 秒,還上線了「使用指南」,降低用戶使用可靈的門檻。可靈 1.0 模型的圖生視頻功能增加了運動筆刷功能,讓用戶能爲圖中最多 6 個元素描繪更精準的運動軌迹。
相較效果豐富的 Seaweed,另一款基于 DiT 架構的豆包視頻生成大模型 PixelDance 給到了大家更大震撼。該模型展示出了對複雜 prompt 的精準理解能力,也更接近真實視頻創作習慣的動态效果與鏡頭語言,能夠在同一個 prompt 下實現多鏡頭的切換,并保持主體、風格、氛圍的一緻性。
發布會的展示中,PixelDance 可以根據「一個男人站在一輛汽車前面,鏡頭向前推進,聚焦到男人拿出的鑰匙,男人打開車門」這樣的 prompt,生成一個基本呈現其細節要求的 10 秒鍾視頻。在已經發布的測評中,PixelDance 也生成了高一緻性,且能運用變焦、縮放、搖移等多種鏡頭語言的視頻内容。
相較視頻平台,擁有圖像工具産品基礎的美圖公司,将 AI 短劇生成作爲自己視頻生成大模型能力的突破口。其面向所有用戶開放的 AI 短片創作工具 MOKI,支持生成中國動畫、兒童期刊、手繪插畫、日式動漫、古典水墨等 10 種視覺風格的短劇作品。從一些測評來看,其對宮崎駿動畫風格、黏土動畫風格都有不錯的呈現。
阿裏巴巴的通義視頻生成大模型、MiniMax 的 video-01 主要強調了模型底層能力的優化。阿裏巴巴采用了中英文雙語标注,從語義理解環節就強化了對中文表達的支持,對中國風視頻内容的生成有更好的支持,并能對簡單的 prompt 進行靈感擴寫,提升視頻生成的效果。MiniMax 則會強調生成的視頻内容可媲美電影質感。

03 奔向場景的三條路徑
随着玩家的基本聚齊,視頻生成大模型的競争開始進入到尋找規模化落地場景的階段。我們可以爲視頻生成大模型找到從 C 端到 B 端的豐富的應用場景,比如朋友圈内容、AI 短劇、視頻廣告、口播内容、宣傳片、節目制作、電影後期 …… 這些場景大緻可以被劃分爲三類,也是大模型奔赴場景的三條路徑。
第一,直面普通用戶,尋求快速增長。快手在快影上、字節跳動在即夢 AI 上,都在進行着直接面向普通用戶的探索。但是,對于大多數普通用戶來說,視頻剪輯、視頻生成都不是高頻次的功能,需要以更大的用戶基數來對沖大部分用戶使用頻次的不足。
以視頻生成大模型目前的能力水準,并不足以滿足用戶簡單便捷地生成所需視頻内容的要求。提出能生成有效視頻内容的 prompt,對大部分人都還是一種挑戰。這也是爲什麽,阿裏會在視頻大模型中增加靈感擴寫功能。視頻生成大模型還處在 PS 階段,但大部分用戶需要的是美圖秀秀。
這種落差的存在,讓視頻生成大模型面向普通用戶的使用,更多會從某個極其具體且剛需的場景切入。像之前大火過的妙鴨相機、黏土特效以及能讓照片說話唱歌的 EMO 模型,都屬于具體且剛需的娛樂場景。他們還肩負着讓更多普通用戶對大模型産品形成精準預期的責任。

在此基礎上,從有趣向有用過渡,不斷找到具體且剛需的場景,可能是視頻生成大模型面向普通用戶進行拓展的關鍵。
第二,服務個體的創作者,降低創作門檻。這類用戶往往是個人或小團隊,創作需求更持續,更有創作沖動,卻缺乏生産高成本、高概念視頻作品的能力。視頻生成大模型讓這些個體創作者有機會付出更多時間成本,通過精調 prompt 和抽卡,來降低金錢成本,将更多靈感和想象力轉化爲視頻作品。
對于視頻平台而言,這些撐起内容創作生态基礎的個體創作者,是最重要的服務對象。更低的視頻創作門檻,更豐富多彩的靈感表達,意味着更爲繁榮的視頻内容生态。剪映、即夢 AI、快影、YouTube、Instagram 正在融入的視頻生成大模型能力,甚至美圖公司的 MOKI,都會将服務這部分創作者作爲一個重點。
即夢 AI 和剪映市場負責人陳欣然在活動上展示了一個融合 AI 能力的創作流程。在這個流程中,創作者可以利用 AI 生成一個故事腳本,然後在 AI 輔助下完成視覺設定,在故事腳本和視覺設定基礎上生成視頻内容,并配以 AI 生成的音樂和音效,利用 AI 智能剪輯輸出完整作品。這種理想的視頻創作的工作流能夠極大釋放創作者的潛力。

YouTube 也在将 Google 的視頻生成大模型能力融入其中。2023 年,YouTube 就已經支持創作者通過自然語言在短視頻平台 YouTube Shorts 中生成視頻背景。今年,随着對 AI 視頻生成大模型 Veo 的集成,創作者可以爲 YouTube Shorts 生成 6 秒的短片,或者爲視頻添加過渡場景。
第三,服務企業客戶,将視頻生成能力植入到現有的内容生産流程中,提供輔助,降低成本。可靈與東方衛視合作,在中秋晚會的《博物館奇妙夜》節目中,讓文物都「活」了過來,支撐了創意的實現。利用剪映的内容營銷創作工具,用戶上傳商品素材或頁面鏈接,就能一鍵生成不同風格的帶貨視頻。
東吳證券在研報中認爲,AI 滲透率提升的核心驅動力在于企業的降本增效訴求。根據東吳證券的測算,全 AI 模式下,電影、長劇、動畫片、短劇的制作成本分别爲 2.5/9.3/3.7/0.4 萬元人民币,相較于傳統模式成本降低幅度超 95%;人機共創模式下,電影制作成本有望降低 43%。
Runway 與獅門影業的合作表明企業與視頻生成大模型結合的意願在提升。在這個合作中,Runway 将使用獅門影業的電影目錄來訓練自定義視頻模型,使其可以生成電影視頻,并利用其增強創作者的作品。當然,這個探索需要更長時間,并具備很強的不确定性。
盡管一些創作者反對将其作品應用于大模型的訓練,但 2024 年動畫藝術家工會(Animation Guild)對美國 55 萬名影視行業從業者進行的問卷調查顯示,已經有 69% 的公司在使用生成式 AI 技術,其中約 44% 的公司将其應用于生成 3D 模型,39% 的公司應用于設計角色和環境。
04 需要更多成功模闆
從 Runway 與獅門影業的合作中,我們也可以看到一個趨勢。在視頻生成大模型之上,一個視頻生成大模型的應用生态正在出現。将視頻生成大模型的能力針對特定場景進行模闆化,是這個應用生态的最核心工作。Runway 就有意将和獅門影業共同開發的模型授權爲模版,供個人創作者構建和訓練自己的自定義模型。
美圖公司對 MOKI 的功能設計就是一個細分場景模闆化的案例。MOKI 将創意短片的創作過程分成可以進行微調的三個步驟:通過用戶提供的故事梗概和現成腳本生成分鏡腳本和設定選項;根據分鏡腳本生成畫面,并支持修改細節;最後輸出帶有配樂的視頻内容。
另一種模闆化的路徑是與行業頂尖的創作者合作,推出最佳實踐。快手在不久前宣布啓動「可靈 AI」導演共創計劃,聯合李少紅、賈樟柯、葉錦添、薛曉路、俞白眉、董潤年、張吃魚、王子川、王卯卯 9 位導演,依托可靈的技術能力,制作出品 9 部 AIGC 電影短片。其中沉澱出來的最佳實踐,也能爲更多内容創作者使用可靈提供借鑒。
我們也看到,越來越多的視頻生成大模型開始面向企業開放 API 接口,借助更多企業的力量,共同開發視頻生成大模型的場景化模闆。Runway 爲其視頻生成大模型 Gen-3 Alpha Turbo 開放了僅限受邀者使用的 API 接口,供受邀者在應用中構建視頻生成功能。Luma、Vidu 也都推出了自己的 API 開放計劃。
在過去半年多的時間裏,我們見證了視頻生成大模型的快速叠代發展,也看到了人們爲其尋找最佳應用場景的諸多努力。在視頻生成大模型領域,還有很多不确定性,比如現有的技術路徑是否能夠實現視頻生成能力的最大化,會不會有新的技術路徑出現,以及如果将視頻生成能力融入進 Butterflies 這樣的 AI 社區會産生什麽樣的效果。這需要更多時間去探索和驗證。
本文來自微信公衆号 " 窄播 ",作者:李威。