美圖吳欣鴻：國産Sora競争關鍵，在創意、工作流和垂直場景

全球 AIGC 應用浪潮下，怎樣将大模型産品以一種更貼近消費者的形式融入生産力工具？

這，或許是 AI 在生産力場景延伸過程中，入場玩家們所要思考的一個重要問題。

中國 AIGC 産業峰會上，美圖公司創始人、董事長兼 CEO 吳欣鴻從美圖視頻大模型的探索之路出發，講述了美圖在圖像、視頻和設計領域深耕 16 年而獲得的經驗與感悟以及對未來的預判。

爲了完整體現吳欣鴻的思考，在不改變原意的基礎上，量子位對演講内容進行了編輯整理，希望能給你帶來更多啓發。

中國 AIGC 産業峰會是由量子位主辦的行業峰會，20 位産業代表與會讨論。線下參會觀衆近千人，線上直播觀衆 300 萬，獲得了主流媒體的廣泛關注與報道。

話題要點

AI 加持，隻用半天，就能做出時長 60 秒的驚豔短片

面對越來越激烈的競争，創意超越現實、工作流的整合、垂直場景能力這三點非常關鍵

垂直模型的創新，有兩年左右的窗口期

美圖不做大而全的模型和場景，更關注垂直的圖像和視頻模型及場景

以下爲吳欣鴻演講全文：

美圖視頻大模型的探索之路

一眨眼，美圖已成立 16 年。最早，我們做影像工具，像美圖秀秀。此外很長一段時間，美圖也探索了不同業務，踩了很多坑。

從 2021 年開始，我們基于訂閱的商業模式，取得了非常好的經營狀态，并重新聚焦于影像和設計産品。現在，我們已經從過去的工具自卑轉變成越來越有信心。

我們正逐步往生産力場景延伸，從最初的拍攝、修圖、修視頻、社交分享到現在新增的視覺創作、專業攝影、專業視頻編輯、商業設計等等。

美圖現在擁有了影像與設計産品全家桶。産品主要分爲AI 圖像、視頻和設計三個大類。

同時，在生态層，美圖今年初收購了站酷，爲我們提供了優秀的設計師共創、商用版權銷售和專業課程設計等服務。

在模型層，去年 6 月發布的美圖奇想大模型爲我們以上産品提供了強大的模型能力支撐。

前兩天，我們使用美圖生産力全家桶制作了一部短片。我想邀請大家觀看這個一分鍾的短片。

謝謝大家觀看。

我想重點介紹這個60 秒的短片是怎麽制作出來的。

其實隻用半天時間，就能做出同樣驚豔的效果。

在前期制作中，我們使用了開拍 AI 腳本以及美圖 WHEE 進行風格和角色的一次性約束，确保短片中人物形象和畫面風格的一緻性。同時，我們還使用 WHEE 的文生圖進行了關鍵的分鏡設計。

在中期制作階段，同樣是美圖 WHEE，我們将這些分鏡制作成視頻化，相當于圖生視頻。

同時，我們還使用美圖開拍的 AI 數字人進行了輸入對話、唇形同步。

在後期制作環節，我們使用了美圖的 Wink 進行視頻編輯，并制作了自動字幕和添加音效。

所有這些産品都是由美圖奇想大模型驅動的，與 AI 緊密相關。這展示了 AI 原生工作流的有益探索，與傳統動畫工作流相比，效率得到了很大提升，且門檻大幅降低。

朝着 Diffusion Transformer 架構進化

去年 12 月，我們發布了 MiracleVision 4.0 版本，其中重點是AI 視頻和 AI 設計能力。剛才的視頻就是使用去年 12 月的視頻大模型生成的。

不過，這和最近我們正在訓練的美圖視頻大模型 2.0 在能力上還有很大區别，我簡要介紹一下進化的方向。

最早，我們采用了 U-Net 結構，在編碼部分也隻能進行空間域壓縮。Sora 發布後，我們發現在架構上有很多可以參考學習的地方，因此我們升級了視頻大模型的架構，采用了 Transformer 結構，另外還實現了時空域同步壓縮。

美圖視頻大模型目前正在從 1.0 向 2.0 的跨越，實現全方位的技術升級，模型參數量顯著增大，同時将擁有更加強大的語義理解能力，大幅提升視頻生成時長、穩定性與内容一緻性。

上述的視頻大模型 2.0 将于今年 6 月美圖影像節正式亮相。

垂直模型創新有兩年左右窗口期

我們對未來也有一些預判。現在大家都在追趕 Sora，預計今年下半年将會有很多國産 Sora 紮堆上市。美圖的 MiracleVision 也是其中一家。

我們認爲，面對越來越激烈的競争，有三個點非常關鍵。

第一，創意超越現實。

衆所周知，Sora 擁有許多充滿創意、奇思妙想的畫面，這是實拍很難做到的。同時，如果将這些畫面采用傳統的視頻特效方式制作，成本将非常高昂。

我們認爲，視頻大模型應與實拍相輔相成，生成一些超越現實的創意畫面，成爲一種全新的特效制作方式。以前的特效，比如前期做綠幕、後期要做動捕等等，時間長、成本高，而現在 AI 特效可以做到低成本、低門檻。

第二，工作流的整合。

如果隻是單純拼生成能力，比如文生視頻，其實它的應用場景是相對有限的。我們正将美圖現有的生産力工具能力進行整合，無論是 AI 能力還是傳統視頻技術相結合，形成類似剛才 60 秒短片的動畫制作工作流。

第三，垂直場景的能力。

我們也在探索視頻大模型未來能否在電商、廣告、遊戲、動漫、影視等場景進行深度應用和變現。因此，垂直場景的可用性同樣是競争的關鍵。

基于垂直創新模型的創新，我們認爲有兩年左右的窗口期。

在這裏，我們對自己業務的要求是，不去做大而全的模型和場景，更關注垂直的圖像和視頻模型，以及電商、廣告等垂直場景。同時，我們也将不斷探索 AI 原生工作流，我們認爲它是一種更能降本增效的實現方式。

剛才提到，文生視頻将是視頻大模型的标配，同時還有更多的視頻生成方式，如圖生視頻、視頻生視頻、音頻生視頻等。

我們可以看到，無論是哪種視頻生成方式，都将有廣闊的應用場景。例如，圖生視頻，因爲美圖是從圖片工具發展起來的，我們每天會産生兩億多張圖片，如何讓圖片動起來？例如，美顔相機的 AI 寫真就在探索 AI 視頻寫真，我認爲這是一種更貼近消費者的形式。

視頻生視頻，我們可以理解爲一種全新的視頻渲染方式，視頻風格化方式。音頻生視頻，我們現在在探索 MV 的生成，同樣也是一個有趣的領域。同時，開拍的 AI 主播也可以用音頻生成，我們錄一段音就可以生成 AI 主播完整的口播視頻。

在這塊，我們也對未來進行了預判。

去年，當然是視頻大模型的早期階段，我們去年 12 月發布的模型，基本上隻能生成 3-5 秒的視頻片段，世界、動作一緻性和穩定性都較差。

今年 2 月，Sora 的橫空出世，我們看到确實有些對物理世界的理解，包括在創意、特效上有一定湧現的現象，視頻的時長也顯著提升。

我們也期待在明年，甚至更遠的未來，視頻大模型能夠實現更深度的物理理解，擁有劇情設計、分鏡、轉場等更專業的能力，能夠與視頻制作工作流緊密結合。

也希望大家關注 6 月的美圖影像節。除了全新的視頻大模型，我們還将有一系列生産力工具全家桶陸續亮相。

今天我就分享到這，謝謝大家！

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~