國産 AI,正式把視頻生成拉進了有聲電影時代。
自從 Sora 引爆視頻生成之後,基本上所有 AI 生成的視頻都屬于" 默片 "的效果,也就是沒有對應的音效(注意不是配樂)。
但現在,音效是可以直接自帶了!而且還是4K、60 幀高清畫質的那種。
那麽 AI 視頻生成現在能到什麽水平?
我們直接拿這個國産 AI 做了個微電影,請看 VCR:
如何?是不是已經有電影的那個 feel 了?
這個國産 AI,正是智譜剛升級的新清影,總體來看有三大特點:
電影級效果:除了剛才提到的 4K、60 幀高清之外,還支持 10 秒時長和任意比例視頻。
模型能力全面提升:背後的 CogVideoX 模型更懂複雜 prompt,能夠保持人物等主體的連貫性,效果更逼真。
自帶音效:引入 CogSound 模型,能夠自動根據視頻内容生成匹配的音效,這個月将正式上線清言 APP。
如此一來,AI 已經具備了制作像上面這樣微電影(或短視頻)的全要素,而且在操作上也是非常簡單。
我們先把一個主題 " 喂給 " 智譜清言的GLM 4 Plus,讓它幫我們生成微電影的腳本:
然後我們再用文生圖的 AI,生成幾張高清大圖,以開頭片段爲例,Prompt 是這樣的:
鏡頭從公園的鳥鳴和晨光中緩緩推進,聚焦在一位滿頭白發的老太太身上。她坐在長椅上,手中拿着一本書,眼神甯靜而深遠。
再進入新清影的圖生視頻界面,把這張圖像傳上去,并填寫想要效果的 prompt:
鏡頭從公園的鳥鳴和晨光中緩緩推進,聚焦在一位滿頭白發的老太太身上。她坐在長椅上,緩緩把書合上,望向遠方陷入深思。
接着在下方面選擇基礎參數即可:
在靜候片刻之後,一段電影級别、自帶音效的高清視頻片段就這麽水靈靈的誕生了。
重複上面的方法,我們便可以得到後邊的那些視頻片段。
至于旁白部分,采用的則是智譜在前不久剛發布的GLM-4-Voice 情感語音模型,可以做到宛如真人配音。
嗯,打得就是一套智譜的 AI 組合拳。
而聯想人類從第一部無聲電影(1895 年)到第一部有聲電影(1927 年),足足花費了32 年。
若是從 Sora 算起,那麽 AI 生成的視頻從無聲到有聲,耗時僅僅9 個月。
此時此刻," 人間一天,AI 一年 "這句話,是真真兒的具象化了。
随意一段視頻,秒出有聲電影片段
那麽智譜的 CogSound 模型還能 hold 住什麽樣的音效?
我們這就來一波實測。
實測方法也是非常簡單,我們會截取電影中的視頻片段作爲輸入,考驗的就是它能否對視頻内容深入理解,并生成沒有違和感的音效。
Round 1:自然環境
我們先取一段雨天傍晚房間裏的一個視頻,把它 " 喂 " 給 CogSound 模型(注:以下原視頻都是無聲的),生成出來的音效是這樣的:
CogSound 精準地 get 到了 " 下雨 " 這個關鍵元素,從音效上來看也是毫無違和感。
再來欣賞一段由清影生成、CogSound 加音效的視頻片段:
Round 2:動物世界
我們再來試試 CogSound 能否看視頻識别出動物的聲音:
CogSound 不僅生成出了獅子媽媽低沉的叫聲,也發覺到了它們處于自然環境之下,還配上了鳥鳴的聲音。
Round 3:多種樂器
接下來,我們上個難度,輸入一段有多個樂器演奏的視頻頻段:
可以看到,從視頻一開始的畫面來看,薩克斯這個樂器應當是 " 主角 ",所以在樂器混合的音效中,薩克斯的聲音是最大的。
而當薩克斯手用力吹奏的時候,CogSound 配的音效竟也有了音樂上的起伏,說實話,這一點确實是有點令人意外。
但要非挑個問題的話,或許鏡頭在轉向鋼琴的時候,樂器的音效上,鋼琴聲音變大一些會更好些。
Round 4:科幻電影
最後,我們再 " 喂 " 一個超級複雜的視頻片段——《流浪地球》:
講真,若不是知道這是 CogSound 生成的,很多人應該都會認爲它是電影原聲了吧。
由此可見,不論 " 喂 " 給 CogSound 模型什麽類型的視頻,它都可以做到對視頻内容的精準理解,并且給出對應音效。
除此之外,在視頻本身生成的能力上,智譜的CogVideo也有了大幅的提升。
例如生成的下面這位老爺爺,情緒和表情的變化,宛如在看一個電影片段:
還有像非常科幻的火焰老虎:
而從上面兩個例子中,我們也不難發現,CogVideoX 現在是可以支持多種比例視頻的生成。
那麽接下來的問題就是:
怎麽做到的?
首先是 CogVideo 的升級,主要集中體現在了内容連貫性、可控性和訓練效率等方面的能力提升。
其整體的模型框架如下圖所示,是基于多個專家 Transformer 模塊,通過文本編碼器将輸入的文本轉化爲潛在向量,再經由 3D 卷積和多層專家模塊處理,生成連續的視頻序列。
整個過程可視爲将自然語言描述轉化爲動态視覺内容的複雜系統。
在模型架構設計中,CogVideoX 特别采用了因果 3D 卷積(Causal 3D Convolution),以高效捕捉時空維度上的複雜變化,使得模型能夠更加精确地理解和生成富有細節的場景。
同時,該模型引入了專家自适應層歸一化(AdaLN),通過動态調整不同模塊的特性,從而在視覺表現上實現更自然、更具連貫性的視頻生成。
爲了應對視頻壓縮與計算效率的挑戰,CogVideoX 采用了3D VAE結構,通過對視頻特征在空間和時間上的下采樣,大幅降低了視頻存儲與計算開銷。
這意味着即便在資源有限的計算環境下,CogVideoX 仍能生成高質量的視頻内容,顯著提升了其應用的可行性。
如果說 CogVideoX 負責生成可視的動态内容,那麽 CogSound 則賦予這些畫面以聽覺上的生命。
CogSound 是一種爲無聲視頻自動生成音效的模型,能夠基于視頻内容智能合成背景音樂、對話音頻及環境音效,其架構如下圖所示:
CogSound 的核心技術依托于GLM-4V 的多模态理解能力,能夠精确解析視頻中的語義和情感,并生成匹配的音效。
例如,在展示森林景觀的視頻中,CogSound 能夠生成鳥鳴和風吹樹葉的聲音;而在城市街景中,則會生成車流與人群的背景噪音。
爲實現這一目标,CogSound 利用了潛空間擴散模型(Latent Diffusion Model),通過将音頻特征從高維空間進行壓縮并再擴展,從而有效地生成複雜音效。
此外,CogSound 通過塊級時間對齊交叉注意力(Block-wise Temporal Alignment Cross-attention)機制,确保生成的音頻在時間維度和語義上與視頻内容高度一緻,避免了傳統音畫合成中常見的錯位和不協調問題。
這便是智譜 CogVideoX 能力提升和 CogSound 背後的技術秘笈了。
短視頻邁入了 AI 時代
多模态是通往 AGI 的必經之路。
這是智譜在很早之前便提出的一個認知,而随着此次 CogSound 的發布,其多模态的矩陣可謂是再添一塊拼圖。
而它的多模态之路,可以追溯到 2021 年,具體到細節領域分别是:
文本生成(GLM)、圖像生成(CogView)、視頻生成(CogVideoX)、音效生成(CogSound)、音樂生成(CogMusic)、端對端語音(GLM-4-Voice)、自主代理(AutoGLM)。
若問這一步步走來,對現在的技術和行業帶來了哪些改變,答案或許是——
起碼在短視頻制作領域,是時候可以邁入 AI 時代了。
首先就是更高質量、更符合物理世界規則的生成視頻,在内容邏輯和視覺上基本上可以夠到短視頻制作的門檻。
加之 CogVideoX 還支持非常多的尺寸,更符合用戶在各種場景下的制作需求。
而最爲關鍵的一點,随着 CogSound 把視頻生成拉進 " 有聲電影 " 時代,使得輸出的結果不僅滿足了視覺的要求,更是符合了真實物理世界中的聽覺要求。
正如智譜所言:
真正的智能一定是多模态的,聽覺、視覺、觸覺等共同參與了人腦認知能力的形成。
據悉,CogSound 即将在智譜清言上線,而且智譜還将發布音樂模型 CogMusic。
加之此前已經發布的 GLM-4-Voice 人聲模型,智譜可以說是把視頻生成中的 " 音 " 這塊全面 hold 住。
總而言之,現在做短視頻,或許就成了有想法就能實現的事兒了。