今年的 AI 視頻生成領域呈現出一種如火如荼的架勢。
從最初卷生成時長到卷畫面質量,再到最近卷起 AI 特效,行業廠商們開卷的方式千奇百怪,但目标都是共通的,那就是鉚足了勁地吸納新用戶,留住舊用戶。
然而,盡管市面上許多視頻模型号稱一鍵生成視頻,但如「默劇」般的成品多少形如雞肋。尤其是我們對 AI 視頻的刺激阈值被一再拔高,音效的缺失就像被捶打的釘子,在用戶的心裏越紮越深。
當然,廠商們不是不想徹底解決這顆釘子,隻是恰好在等待一個厚積薄發的時機。
三個月前,作爲國内首個面向公衆開放的視頻生成産品,智譜清影上線清言 App,隻需一段指令或圖片,30 秒就能生成 AI 視頻。
三個月後的今天,智譜清影再次迎來了一大波重磅升級。
10s 時長、4k、60 幀超高清畫質,任意尺寸、更好的任務動作和物理世界模型……除了開卷這些基本功,更重要的是,智譜清影也即将在本月上線生成與畫面匹配的音效了。
附上新清影具體升級亮點:
圖生視頻的質量、美學表現、運動合理性以及複雜提示詞語義理解方面能力明顯增強;
更強的人物面部表演細節、動作連貫性和物理特性模拟,提高了視頻的自然度和逼真度;
支持生成 10s、4K、60 幀超高清視頻,支持任意比例的圖像生成視頻;
同一指令 / 圖片可以一次性生成 4 個視頻,與畫面匹配的音效功能将很快在本月上線公測;
并且,當人們還在爲 AI 開源 / 閉源争論不休時時,智譜卻是國内少有一貫支持開源的企業,而在今天,智譜也正式發布并開源最新版本的視頻模型 CogVideoX v1.5。
此次開源包括兩個模型:CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V,後續,CogVideoX v1.5 也将同步上線到清影,并與新推出的 CogSound 音效模型結合。
代碼:https://github.com/thudm/cogvideo
模型:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
官方宣布,新清影即日起在智譜清言 App 上線。話不多說,直接附上體驗地址:https://chatglm.cn/video?lang=zh
4K 60 幀,新清影已經 next level 了
和藹的老人面帶微笑,面部肌肉細節清晰可見,沒有明顯的像素化或模糊現象。
火焰老虎的形象也令人印象深刻,不僅步态拟真,眼神之中還透露出一種野性的美感,身上的火焰顔色也呈現出豐富的色彩層次和深度。
車輛急速飛馳,場景轉換沒有卡頓或延遲,即使是快速移動的對象也能保持連貫性,而在速度感和緊張氣氛的營造上也有一手。
喵星人在線化身大廚,熟稔地翻炒今天的菜品。
不被演示 demo 的花言巧語所迷惑,上手才是檢驗實際效果的唯一标準。
我們也用圖生視頻功能上手跑了一個放飛孔明燈的視頻。孔明燈被釋放,緩緩升入夜空,鏡頭從下往上跟随,天空也被染上了深邃的藍色。
又或者,我們「複活」了靜止的小黃花,微風拂來,小黃花在草地上輕輕搖曳。
不過「新清影」還是需要一定程度的抽卡,這也是目前國内外 AI 視頻模型在穩定性上普遍存在的問題,在日常使用這類産品時,還需要多些耐心。
對于視頻來說,音效和畫面總是相輔相成的,基于此,我們也用幾段去掉音頻的「啞劇」視頻,并讓 AI 爲它們生成相應的音效,建議打開音量鍵食用。
例如《海上鋼琴師》最經典的鬥琴環節,你更喜歡這個還是原版呢?
美麗的煙花表演,它們在夜空中綻放的瞬間,搭配上 AI 音效,有沒有打動你?
雨滴的聲音各異,有的清脆,有的低沉,有的急促,有的悠長。
核爆炸的場景很大,搭配聲音卻幾乎沒有延遲,在模拟真實爆炸聲,環境噪音以及餘波等方面表現出色。
别急,仔細聽,還有阿凡達水下探險。
如果 CogVideoX 與 CogSound 強強聯合,即由清影技術負責生成畫面,而音效模型負責配音,最後生成的視頻内容也更加生動、真實,甚至能夠觸動人心。
從無聲到有聲,AI 視頻進入有聲電影時代
1900 年,第一部有聲電影在巴黎放映,直到十年後,這種能夠将聲音與影像同步的技術才逐漸成熟,達到了商業化的标準。
有聲電影的問世,不僅僅終結了電影自誕生之初的沉默狀态,更重要的是,它将電影從單一的純視覺藝術轉變爲視聽結合的全新藝術形式。
影片上的演員開口說話,而觀衆席上也響起對有聲電影的歡呼聲。
兩者心聲交響,心音共鳴。
如今,曆史的輪回再次上演,從年初的「啞劇」到如今的 AI 音效,如果說前者還是局限于 0-1,那麽 AI 音效的加入,則标志着 1-N 史詩級跨越。
基于 GLM-4V 的視頻理解能力,智譜家族的新成員——音效模型 CogSound 能夠準确識别并理解視頻背後的語義和情感,并在此基礎上生成與之匹配的音頻内容。
例如,爆炸、水流、樂器、動物叫聲以及交通工具聲等。
在影像叙事中,聲音的到來是一個關鍵拐點,它不僅使叙事從依賴文字構建的視頻中突圍,而且在觀念和方法上都帶來了更廣闊的想象空間。
然而,影視行業對 AI 的引入無疑是充滿争議的。
上個月,好萊塢演員的罷工風波尚未平息,而導演卡梅隆則在出席峰會時表示,AI 将會重新定義電影故事講述,幫助編劇導演探索新的故事線,以及叙述手法。
放諸到視頻産業界,音效模型也有着廣泛的應用場景,比如可以生成電影中的大規模戰鬥場景和災難場景的聲音,大大縮短制作周期,降低制作成本。
隻是,AI 時代下的視聽藝術究竟應該會是什麽樣?
曆史上的技術大爆發給我們提供了一些思路。如果說工業革命的機械化、流水線作業等方式,讓标準化的大規模生産成爲可能,那麽随着 AI 的到來,通過學習大量的數據和模式,能夠模仿人類的決策過程、并且根據每個用戶的具體需求和偏好定制個性化服務。
簡言之,通過降低使用門檻,AI 讓每個普通人都能手捏自己喜歡的個性化視頻。
法國新浪潮的代表人物讓 - 呂克 · 戈達爾,也曾探讨過電影技術變革對電影語言和藝術性的影響:
「電影不是僅僅在拍攝時使用聲音和影像,而是在觀衆心中構建某種語言。無聲電影通過視覺創造了更多的可能,而有聲電影則改變了這種創作方式。」
而追溯至今年 2 月份,人們關于 AI 視頻的展望是由 OpenAI 發布的 Sora 率先拉開,但很遺憾,直到此時此刻,該産品卻仿佛陷入「如來」的狀況,至今未見蹤影。
也正是在這個期間,我們很高興能夠看到國内廠商甚至在這一賽道上「東風壓倒西風」,實現了真正意義上的彎道超車。
不過,這或許還隻是開胃小菜,智譜認爲真正的智能一定是多模态的,聽覺、視覺、觸覺等共同參與了人腦認知能力的形成。
構建包括文字、圖像和視覺等模态在内的智譜多模态大模型矩陣,能夠進一步提高大模型的應用和工具能力,也是在邁向 AI 的終極目标—— AGI。
至此可以說,我們真正邁入了 AI 有聲電影時代。