出品 | 虎嗅科技組
作者 | 王沁
編輯 | 苗正卿
頭圖 | AI 生成
在白天,Danny 是一位白領,朝八晚五。他大學畢業後,就進了老家南昌的一家公司,一待就是七八年,如今 30 歲出頭,住在公司大樓内的出租屋,是一位勤勤懇懇的 UI 設計師。
當夜晚降臨,Danny 回到獨居的小屋,成爲自己的造夢師——用 AI 把自己各種神奇的夢境變成短片。他是藝術生,高中時一直夢想去 4A 廣告公司做創意片,但工作後從事的是沒有那麽熱愛的 UI 設計師,在業餘時間做電商産品創意帶貨短視頻,來靠近職業夢想。
今年 7 月,看到一場 AI 短片的創作大賽通知後,Danny 決定 all in AIGC," 你不需要高昂的拍攝設備,不需要場地,不需要演員,甚至不需要配音,都可以用 AI 實現很多天馬行空的創意。"
Danny 本來打算年底離開南昌,去上海北京求職,但是 AI 讓他看到機會:" 不用離開自己的城市,也可以創作。"
自此,Danny 每天晚上回到獨居的小房間,熬夜到淩晨兩三點,用可靈 AI 做短片。幾秒鍾的鏡頭,從 Midjourney 生圖片再到可靈 AI 生視頻,常常要抽卡十幾、二十多次,直到滿意。
他以西遊記的白骨精爲題材,做了兩集 AI 短劇,爲了調試不同鏡頭中白骨精的發型、頭冠、衣服的統一性,每張圖片都要重繪幾十次,甚至上百次," 非常大的工作量,快做崩潰了。"
AI 生成一組圖片 / 視頻的過程中,每個圖片 / 視頻的效果都不同,有些會變形扭曲,或者動作、表情和預期的不一緻。創作者們隻有不斷調整提示詞,生成多次,在一組圖片 / 視頻中挑選效果合适的,這個過程被稱爲 " 抽卡 "。
爲了制作白骨精的短片,Danny 抽卡一共花了五六千元。Danny 對畫面細節要求高,花費也比其他創作者高,别人可能抽卡幾遍,但他要幾十遍,找到最滿意的版本。他用自己的工資來支撐制作費用," 賭的成分很大,如果流量不好,就相當于打水漂了。"
《白骨精前傳》截圖。圖片來源:受訪者提供
後來 Danny 用名爲 " 怪物集 " 的賬号,發布了《白骨精前傳》短片,最後在快手和抖音的播放量一共近 2000 萬,他在快手可靈的 AI 短劇大賽中獲得一等獎,拿到了 5 萬元獎金,"我終于被大家看到了。"Danny 說。
AI 視頻作爲内容形态的 " 新物種 ",來勢洶洶。各家大模型廠商和互聯網大廠紛紛發力 AI 視頻生成。
今年 8 月,昆侖萬維昆侖萬維推出 AI 短劇平台 SkyReels。9 月,字節跳動發布了豆包視頻生成 -PixelDance、豆包視頻生成 -Seaweed 兩款大模型。到了 11 月,騰訊混元也開始内測視頻生成模型,又在 12 月把視頻模型開源。
快手在 9 月上線了可靈大模型的 1.5 版本,根據快手 2024 Q3 财報,可靈 AI 的月活躍用戶在 9 月超過了 150 萬。
如何燒錢,又如何省錢
談起 AI 視頻的制作,創作者們紛紛感歎燒錢,但燒錢也要沖,因爲長遠收益大,AI 視頻是他們的人生 " 第二增長曲線 " 和 " 第二春 "。AI 視頻創作者們,大多是副業做 AI,主業分布在各行各業,如設計師、遊戲工程師、廣告、電影導演、VR 從業者等等。
對 UI 設計師 Danny 來說,AI 圓了他的廣告創意的夢。
對主業從事 VR 的葛老闆來說,AI 是事業的轉機。今年 40 歲的葛老闆在十年前從一家視頻網站辭職,後來與人搭夥做 VR 公司,做了十年,經曆了 VR 行業的潮漲潮落," 還在苦苦支撐 ",又在當下發力 AI 視頻。
"AI 的生意比 VR 好落地很多。" 相比于 VR 内容需要 Apple Vision Pro、XR 眼鏡等硬件終端作爲載體,AI 視頻在手機上就可以大範圍傳播。
葛老闆的 AI 動畫短劇《胡相公》獲得快手可靈 AI 短劇大賽的最佳創意獎,獎金兩萬。他的 AI 視頻作品也給他帶來了一些影視劇制作和 AI 文旅宣傳片的商單。
AI 視頻的燒錢,都圍繞一個核心:在 AI 生成的不确定内容中,爲了保持人物角色的一緻性和故事連貫,要不斷抽卡。
可靈在 10 月底開始内測人臉模型,用戶上傳一些關于同一人物的動作 / 表情視頻,每段視頻 10-15s 左右,就能訓練出這個人物的數字人,之後就可以生成這個數字人在不同角度、不同景别的視頻,而不會發生人物的形變。
生成這樣一個人物模型,需要 2000 點數左右(給超級創作者打完折後需要 1000 點數,約合人民币 100 元),每次從人物模型生成一段視頻,需要消耗 35 點數左右(約合人民币 3 元多)。
AI 視頻創作者葛老闆在使用可靈的人臉模型後發現:" 如果是簡單的表情,比如微笑,用眼神看你一眼,是可以的。大笑、哭泣以及過于細膩的表情演繹,就會比較吃力,表情容易不自然,可能要多次抽卡才能效果滿意。"
Danny 表示,目前業内常用的 Lora 訓練模型,可以大緻解決人臉長相上的一緻性,但對于更多細節例如發型、發飾、妝容、服裝造型等,還無法完美還原。例如,Danny 的《白骨精前傳》中,白骨精頭頂上銀色金屬的發冠,用 AI 生成圖片後常常形态、大小不一緻," 幾乎每張圖片都需要進行幾十次甚至上百次的局部重繪。"
《白骨精前傳》AI 短劇截圖,創作者 Danny 幾乎每張圖片都要幾十次上百次重繪。圖片來源:受訪者提供
" 一段 5 秒鍾的片段,常常要抽十幾二十次,花一兩百塊錢。要做兩分鍾的視頻,就很費錢。我會執着一些細節,花費比别人高一些。"Danny 表示當時做白骨精短片花了五六千塊,都用自己工資支撐。
雖然抽卡很燒錢,但是國産視頻模型相比于國外模型,已經把價格打下來很多。
對于非會員,國産視頻模型如可靈、即夢給用戶每天贈送登錄積分,有一定的免費生成視頻的額度。
在基礎包月會員價條件下,用提示詞文生視頻,生成一個 5 秒片段,Runway 需要約 1 美元,Pika 需要約 0.25 美元,即夢需要約 0.4 美元(約 3 元人民币),而可靈隻要約 0.1 美元(約 0.9 元人民币)。在卷價格方面,可靈 AI 已經走在前面。
雖然 AI 視頻要抽卡燒錢,但相比于傳統影視制作,AI 視頻的性價比到底如何?
對于傳統電影行業出身的青年導演朱智立來說,AI 影像相比于電影實拍,已經大大降本。
朱智立的 AI 短片《新桃花源記》入選了 " 工業強國 · 工業與科幻影像展 ",講述了一位宇航員爲地球尋找新家園的故事,影片海報的畫面是一位宇航員走向桃花缤紛的山洞,原圖是用文生圖模型 Midjourney 制作的,片中鏡頭是再用 AI 工具圖轉視頻。"(如果是電影實拍),要呈現這樣質感的洞,還要有桃花,肯定要制景。還需要特别大功率的燈,以及一個非常好的燈光指導,才能打出這種有層次的光效。如果實景找不到這樣的洞,就需要綠幕加特效或虛拟拍攝,成本比 AI 生成要高得多。"
朱智立的 AI 短片《新桃花源記》 海報,用 AI 工具做出堪比電影實拍的效果。圖片來源:受訪者提供
影片結尾使用的音樂是用音樂生成模型 Suno 制作,朱智立最開始以爲 AI 音樂會非常機械,沒想到 AI 生成的配樂展現出非常複雜的情感," 有一段是十分糾結的旋律,完全能夠體現出這個人物最後離開桃花星時,居民告訴他‘不足爲外人道也’,但他又想把這個地方公之于衆的複雜心理狀态。"
令朱智立驚訝的是,AI 不僅能很精微地表達出他的創意,還會自己産生新的創意,"AI 還會自己加戲。" 比如,他用圖生視頻生成一個鏡頭,表現有一群外星居民圍住宇航員,宇航員跟外星居民講自己是從地球來的。結果 AI 不僅生成了這個畫面,還充當了半個導演,加了戲——有個外星居民竟然自己拿出手機拍宇航員,然後宇航員講完後還跟外星居民裏的一個小朋友擊掌,這些都是意料之外的。"AI 很聰明,會幫你加一些創意,至于适不适合,你可以自己選擇。"
AI 短片《新桃花源記》中的鏡頭,AI 視頻模型自己 " 加戲 "。圖片來源:受訪者提供
狂奔的技術,如何影響叙事
AI 視頻生成模型們,在技術叠代的路上,一路狂奔。
針對人物一緻性的痛點,各家紛紛出招:
10 月底,可靈 1.5 版本開始内測人臉模型。
11 月,生數科技 Vidu 1.5 推出了多主體一緻性功能,依靠通用模型能力的提升,而非業界常用的 LoRA 微調方案,宣稱用三張圖就能實現主體在不同場景下的一緻性。
Runway 也在 10 月底上線了 Act-One 功能,在從真人表情遷移到 AI 人物表情時,原始圖像的外觀特征得以保留,表情變化不會讓人臉形變。
不斷叠代的技術,也在影響創作者們的叙事方式。
每個創作者都有自己保持人物一緻性的方法。一個讨巧的方法是,從一開始的角色形象設計上,就避開細節複雜的形象,而選擇形狀簡潔的角色形象。例如 Sora 在一個 demo 片段中展現的氣球人,頭頂一個氣球,即使發生些許形變,觀衆也不大看得出來。因此,朱智立在短片《桃花源記》中選擇了身穿宇航服、頭戴面罩的人物形象。
葛老闆的 AI 短劇《胡相公》采用動畫形象。圖片來源:受訪者提供
動畫也是保持人物一緻性的捷徑。人類天然地對人臉更敏銳、更容易挑刺,而動畫形象即使發生些許形變,觀衆的容忍度也更高。2024 北京國際電影節 AIGC 短片單元中,最佳影片《緻親愛的自己》、最佳美術設計《達芬奇計劃:新文藝複興》以及近半的優秀獎短片如《AI 升職記》《老鼠嫁女》等等都采用動畫角色。
在故事題材選擇上,一種方法是選擇大衆熟悉的故事原型加以改編,這樣即使 AI 短片本身的叙事不足,觀衆能夠自行腦補劇情。葛老闆的 AI 短劇《胡相公》獲得了可靈 AI 短劇創作大賽的最佳創意獎,講述了狐狸與書生的愛情故事,全程沒有解說詞," 觀衆一看到狐狸和書生,腦海裏面自然會有一個畫面,很多東西(劇情)就不用介紹 …… 盡量寫 100 字以内就能講明白的故事,如果講一個 300 字以上的故事,用 AI 表現就難了。"
葛老闆的 AI 短劇《胡相公》選擇了狐狸與書生的故事原型。圖片來源:受訪者提供
這種方法是不用解說詞,另一種相反的方式是——完全依賴解說詞來叙事,這在 AI 短片中也非常常見,例如朱智立的短片《新桃花源記》中采用古文《桃花源記》的改寫版作爲全片的旁白,Runway 獲獎影片《My Mom》全片以口述信件作爲旁白。
" 故事依賴解說詞 " 的現象,背後原因是節約成本,因爲 AI 視頻還 hold 不住長鏡頭複雜叙事。要推動劇情和人物,就需要大量有效的分鏡頭,而不是一些 MV 式空鏡過場畫面。
如果不依賴旁白與解說詞,而靠人物對話,首先要解決的是配音。AI 視頻創作者葛老闆表示," 找一個好的配音演員其實很花時間,在短時間内做到是很難的 "。其次,即使找到好的配音演員,如何把配音與 AI 角色的嘴型同步,也是個難題。
針對這種問題,視頻模型的技術也在飛快進化。今年 10 月,可靈新增 " 對口型 " 功能,生成人物的口型與上傳配音同步。
AI 角色對嘴型的問題,對于 Danny 也是一個難點。在制作《白骨精前傳》時,Danny 找了全球十幾個專門給角色對嘴型的網站,效果都不太好。此外,爲了給 AI 角色配音,Danny 也嘗試了全球十幾個 AI 語音合成的網站,發現 AI 配音仍然比不上真人說話的質感,就去找真人配音。爲了在短時間内低成本完成比賽作品,他在抖音上找 1 萬 -10 萬粉絲量的配音博主,花幾百塊錢完成了 2 分鍾 AI 短片的配音。
但 AI 技術不斷狂奔,誰也說不上 AI 語音何時會超過真人配音的質感。Danny 近期在用 AI 語音合成軟件 "Dubbing X",該軟件在發布的全 AI 生成台詞演繹的《十二公民》中,角色台詞的音色、情緒都展現出複雜層次。
最近視頻模型廠商們開始卷的 " 多主體一緻性 " 功能,也給 AI 短片的叙事帶來突破。
生數科技在 11 月推出 Vidu 1.5 版本,主打多主體一緻性功能,可以讓人物在環境中大幅度移動,而不出現人物和環境的形變。
目前,多主體一緻性的功能效果還有局限。葛老闆在嘗試使用時," 比如我把一個人放到卧室背景的床上,再讓他抱着一隻公仔小熊,他的臉會有點變化,抱熊的姿勢會很怪,但是整體上畫面可用。"
但這相比于之前,已經給叙事帶來很大自由度。在此之前,葛老闆很難制作有兩個主體同時在運動的畫面,如果想讓兩個角色同時出現在畫面中且有運動,就需要把兩個角色各自摳像,先各自生成視頻,再放到背景上。
可以預見,飛奔猛進的視頻模型,會讓 AI 視頻的叙事自由度繼續提升。