現有的短視頻創作模式,很有可能會被徹底颠覆!
國産 Sora 來了!這家公司的 AI 視頻已經實現了 15 秒 4K 60 幀的超逼真效果。而且,它和小米、快手都已展開戰略合作,瞄準了 500 億美元的短劇出海市場。
OpenAI 的 Sora,現在是徹底把 AI 視頻的場子給熱起來了。
不僅 Stable Video 立馬上線了公測, 而且 Pika 也随即拿出了給視頻對口型的 Lip Sync,以及可以根據内容自動生成聲音的音效生成功能。
LTX Studio 則另辟蹊徑,上線了電影制作平台,把視頻生成、編輯、剪輯、旁白一條龍全包了。
而國内的腳步,也正緊緊跟随。
就在 3 月 5 日的超訊通信 X 七火山大會上,一段高清 4K 文生視頻,讓在場觀衆驚呼連連。
而作爲背後工具的 Etna,不僅在視頻長度上達到了破紀錄的 15 秒,并且還實現了 60 FPS 的超高幀率,大大提高了視頻的流暢性和觀看體驗。
相比之下,其他的 AI 視頻最高也隻有每秒 30 幀。
無論是水母、鲸魚、章魚、螃蟹、斑馬、火烈鳥,還是沖浪者、劃潛艇的人、滑雪的人,都做到了細節高清、動作連貫,甚至達到了 3840x2160 的超高分辨率。
這隻美麗優雅的維多利亞冠鴿,頭上羽冠的羽毛花邊精緻可見,眼睛栩栩如生,羽毛的質地和顔色都很細膩地還原出來了
夜色中的女郎,眼神魅惑地看向鏡頭
Etna 的問世,意味着現有的國産文生視頻技術的一次重大突破。現有的短視頻創作模式,很有可能會被徹底颠覆!
一大波 4K AI 視頻來了!
Etna 的這波演示,讓我們可以充分放飛想象力,把腦海裏最奇特的想象給還原出來。
維多利亞冠鴿對着鏡頭展示自己的羽毛,頭頂的壯麗彩冠 blingbling 地閃光。
一個酷酷的女生,戴着墨鏡站在街頭,帶着墨鏡。
穿着比基尼的金色長發美女,站在海浪中。
黑夜的叢林中,一位女郎穿過,隻留下神秘的背影。
兩艘海盜船在一杯咖啡中航行時,忽然狹路相逢。
陽光透過熱帶雨林的斑駁樹影灑下來。
一個精靈在魔幻森林中,周邊環繞着發光的植物。
兩隻哈士奇開心地戴上泳鏡,潛到海底打卡,它們開心地沖着鏡頭微笑合影,右邊那位眼神還透着一股得意。
而小熊貓們居然出現在了魚缸上面,整個畫面構成一幅令人眼前一亮的的生态奇景。
如何搶先複現 Sora?
從上圖可以看出,相較于市場上的現有模型,Etna 在時長、高清晰度、豐富生動細節和強語義理解上,都保持着較大優勢。
爲什麽七火山能成爲國内率先複現出 Sora 的公司?
Sora 的關鍵創新,是一個可以靈活地處理不同維度數據的 Diffusion Transformer:
1. 時空壓縮器會把原始視頻轉映射到潛空間中。
2. 視覺 Transformer(ViT)模型會對已經被分詞的潛表征進行處理,并輸出去除噪聲後的潛表征。
3. 一個與 CLIP 模型類似的系統根據用戶的指令(已經通過大語言模型進行了增強)和潛視覺提示,引導擴散模型生成具有特定風格或主題的視頻。經過多次去噪處理之後,會得到生成視頻的潛表征,然後通過相應的解碼器映射回像素空間。
在相關領域技術積累的基礎上,Etna 模型迅速抓住了 Sora 的精髓,另外還引入了幾項創新。
技術架構創新
由于視頻的時空特性,在這一領域應用 DiT 所面臨的主要挑戰是:
(1)如何從空間和時間上将視頻壓縮到潛空間,以實現高效去噪;
(2)如何将壓縮潛空間轉換爲 patches,并将其輸入到 Transformer 中;
(3)如何處理長距離的時空依賴性,并确保内容的一緻性。
爲此,Etna 模型在主幹網絡上 Diffusion 架構,同時,在一個更大的數據集上實驗和适配與 Sora 相似的 Diffusion+Transform 架構。
因爲融合了 Diffusion 模型和 Transformer 模型的優勢,通過這種結合,Etna 就形成了一種高效且先進的新型模型架構。
這不僅提升了模型的生成效率,還保證了生成内容的高質量和高一緻性。
時空理解能力
其次 , Etna 模型在語言模型和圖像模型中插入時空卷積和注意力層,能夠處理視頻數據,即考慮圖像序列中的時間連續性。
而這也就意味着,Etna 擁有了一定的時空理解能力,從而能夠理解并生成具有時間維度的視頻内容。
視頻時長與幀率優化
Etna 模型支持生成視頻時長達到 8-15 秒,且視頻流暢度極高,每秒可達 60 幀。
這一特性使得 Etna 生成的視頻不僅内容豐富,而且視覺效果流暢自然,極大提升了用戶觀看體驗。
深度語義理解能力
文本提示對于指導文本到視頻模型,制作既具有視覺沖擊力,又能精确滿足用戶創建視頻需求至關重要。
以 Sora 爲例,提示中,包含了人物的動作、設定、角色出場,甚至是所期望的情緒,以及場景氛圍。
而這樣一個精心制作的文本提示,也确保了 Sora 生成的視頻與預期的視覺效果非常吻合。
無獨有偶,Etna 模型背後的技術架構,也特别強調了對輸入文本的深度理解。
借鑒了 Sora 模型的成功經驗,Etna 能夠更準确地捕捉和轉化文本信息爲視頻内容,使得生成的視頻不僅忠實于原文意圖,還能豐富展現文本的細微情感和場景。
比如,開頭那隻冠鴿的 prompt 就是:
這張維多利亞冠鴿的特寫照片展示了它引人注目的藍色羽毛和紅色胸部。它的羽冠是由精緻的花邊羽毛制成的,而它的眼睛是醒目的紅色。鳥的頭微微向一側傾斜,給人一種帝王的威嚴的印象。背景是模糊的,吸引人們注意到這隻鳥引人注目的外表。
可以看到,Etna 生成的冠鴿不僅非常忠實于 prompt,而且鳥首微颔、帝王般的威嚴感,也都還原得十分到位,表現出了細膩的控制能力。
高清晰度與豐富細節
與早期的視頻生成模型相比,Etna 在視頻清晰度和圖像細節方面取得了顯著進步。
這意味着 Etna 能夠産生高質量的視頻内容,每個場景的細節都被精細呈現,爲觀衆帶來身臨其境的視覺享受。
高質量的訓練數據
最後,Etna 模型特别注重訓練數據的質量,采用視頻而非靜态圖片作爲主要訓練材料,通過高效的處理方法優化了學習效率。
傳統模型主要采用的是靜态圖像作爲訓練數據,而 Etna 模型的方法,更符合其生成目标的本質。
通過優化的 patch 處理方法,Etna 模型在訓練過程中能更有效地理解和模拟動态場景,從而提升最終視頻的自然度和真實感。
具體來說,Etna 模型在一個大型視頻數據集上進行了充分訓練,過程采用了先進的深度學習技術策略,包括 LDS 大規模訓練、複雜 HPO 超參數優化和 DPO 微調,确保了模型的強大性能和生成能力。
改造短視頻全産業鏈
要說 2024 年最火的是什麽?短劇無疑是一個高贊答案。
對此,手握多年技術積累的七火山,也有了全鏈路的布局。
現在大家已經切實地感受到,AI 多模态大有可爲,而七火山已成爲頭部平台的 AI 内容戰略合作夥伴。
它的産品形态兼具 toB 和 toC 模式,整合了 AI 系統能力,全面進軍 AI 短劇制作領域。
七火山的 AI 多模态布局,除了有 Etna 之外,還包括 Lava、miniTV 和 Bromo。
其中,Lava 是一個短劇 AI 譯制系統,可以完成角色換臉、對白配音、字幕翻譯。
miniTV 是一個 AI 短劇出海分發平台。
它聚合了 AI 短劇内容,與平台共同探索内容出海新模式。
Bromo 是一個圖片超分工具。它的圖生圖可達最高 10K 的超高分辨率,滿足商業海報的水準。
左右滑動查看
AI 視頻,将颠覆整個行業
目前,七火山已經獲得了來自上市公司超訊通信的戰略投資,後者由此成爲持股 30% 的單一大股東。
從去年初開始,超訊通信就開始尋找 AIGC 垂類新銳企業進行布局,在跟一系列 AI 多模态、AI 應用落地公司接觸後,确定了投資七火山。因此,七火山在算力上也能得到充分支持。
短劇爆火海内外的這一年,七火山也獲得了幾家大廠的青睐。
首先,七火山已經與小米就 AI 視頻達成合作,發揮自己在短視頻創作、短劇出海本地化、劇本創作、視頻優化等方面的豐富經驗優勢。
此外,七火山和快手海外 SnackVideo 也有合作,将通過前沿 AI 技術,實現内容本地化,爲海外用戶帶來各種琳琅滿目的短劇。
随着 TikTok、Instagram Reels 和 Snapchat 等平台的興起,短視頻近年來人氣迅速飙升,成爲當今的數字生态系統中最受歡迎、最重要的内容之一。
無論是在快節奏的現代生活中,輕松吸引人們注意力的優勢,還是病毒式傳播的可能性,都讓它的影響日漸擴大。
許多業内人士公認,短視頻就是在線内容的未來。其中短劇這一形态,更是創造了一個又一個爆款奇迹,今年的市場規模将超過 500 億。
而在去年,中國的出海短劇就已經在海外「殺瘋了」,成爲掘金藍海新賽道。根據國海證券的調查,短劇出海的長期空間可達 360 億美元。
這麽看,七火山妥妥是潛力股了,前景無限。