文|尚恩
編輯|鄧詠儀
字節正在跑步 AI 化,産品側剛剛宣布對外測試AI 對話産品豆包,又接連一口氣在 Github 上發布兩個 AI 視頻項目。一個主多模态動畫生成,另一個則專注文本導向的視頻編輯。
目前在 Github 上,兩個項目加起來已經拿到 1000+ 星。
來源:公開網絡
不僅如此,還引來大批網友圍觀,有人就直接表示:" 一直想在 TikTok 火,有了 AI 這下可好辦了 "!
來源:Dave Villalva 推特
目前,字節的這倆項目雖已上傳 GitHub 和 arxiv,但還沒有公開代碼,所以想上手玩還得稍等等了。
對此就有不少網友已經等不及,在線求代碼中…
來源:Don Jose Valle 推特
話不多說,來具體看看這倆 AI 視頻生成項目的細節。
AI 捕捉運動信号,一鍵生成視頻
MagicAvatar 由字節跳動開發,是一款主打多模态輸入生成的多模态框架,可以将文本、視頻和音頻等不同輸入方式轉化爲動作信号,從而生成和動畫化一個虛拟人物。
具體來說,通過簡單的文本提示就能創建虛拟人物,也可以根據源視頻生成跟随給定動作生産,還能對特定主題的虛拟人物進行動畫化。
比如,輸入 " 一個在火山裏踢踏舞的宇航員 " 就能生成一個相應的虛拟形象。
來源:MagicAvatar
或者直接提供一個源視頻,然後 AI 就會創建一個跟随給定動作的形象。
看過生成效果,不少網友驚呼,Runway 的 Gen-1、Gen-2 不香了!
來源:推特
根據字節團隊的解釋,相比以往直接從多模态輸入生成視頻,MagicAvatar 獨特之處主要是将視頻生成明确分解爲兩個階段。
第一階段,主要将多模态輸入(文本、視頻、語音等)轉換爲表示運動的信号,如人體姿态、深度信息、DensePose 等。第二階段,則是将第一階段生成的運動信号與外觀描述一起輸入到模型,然後生成視頻。
這裏提一嘴,DensePose 是一種計算機視覺技術,用于将人體在圖像上的姿态信息與一個 3D 人體模型進行關聯。
比如,我們想生成一個 " 女子交叉手臂在舞池跳舞 " 的視頻,直接把提示詞投喂給 AI,AI 會先識别生成交叉手臂的動作,然後再生成目标形象。
這樣做的好處優勢在于降低了學習難度,不同模态之間不僅可以使用獨立的數據進行訓練,且不需要所有模态都同時存在的數據集。
另外,MagicAvatar 還支持用戶上傳目标人物的圖片,來爲特定人物生成動畫,實現個性化需求。
未來研究團隊表示,還将推出音頻引導形象生成的功能,到時候用戶隻用通過音頻輸入就能創建形象,比如說話、唱歌。
三階段訓練,AI 高保真編輯
MagicEdit 是一個文生視頻的編輯工具。用戶隻需要自然語言提示,就能輕松地改變視頻的風格、場景甚至替換視頻裏的對象或添加元素,同時保持原視頻的動作和外觀一緻,還可以通過視頻混合功能創造出新穎的概念。
比如,把左邊這隻小兔子變成一個像兔子的老虎,直接提示 Tiger就搞定。
OS:(雖然看着有點怪,不過意思是到了…)
來源:MagicEdit
具體來說,MagicEdit 可以清晰地分離視頻對象的外觀和動作并進行學習,實現了高質量和時間連貫的視頻編輯。它能夠獨立地處理和優化這兩個方面,然後再将它們合成到一個新的完整的視頻中。這樣做的好處是,編輯過程更加靈活和高效,同時也能保證視頻的質量和時間連貫性。
比如,你正在編輯一個視頻,其中有一個人在跳舞,外觀就是這個人的衣服、發型、臉型等,而動作就是他跳舞的動作。
簡單來說,MagicEdit 就像是一個聰明的導演,它能分别調整這個人的衣服和跳舞動作,然後再把這兩者完美地結合在一起,按照不同個性化需求生成新的視頻。
新視頻可能背景、場景和風格不一樣了,但是保持了原視頻的人物外觀和動作,同時整個視頻看起來既漂亮又流暢。
目前,MagicEdit 支持多種編輯應用,包括視頻風格化、局部編輯、視頻混合(Video-MagicMix 等功能。視頻風格化就是能夠将源視頻轉換成具有特定風格,創建具有不同主題和背景的新場景,比如現實、卡通等。
局部編輯則允許用戶對視頻進行局部修改,同時保持其他區域不變。視頻混合(Video-MagicMix)就類似于 MagicMix,可以在視頻領域内混合兩個不同的概念,以創建一個新的概念。
除此以外,MagicEdit 還支持視頻擴展功能,可以在不重新訓練的情況下進行視頻擴展任務。
按照以前的邏輯,視頻擴展通常需要針對此任務特别訓練模型或微調,靈活性比較差。
因此研究團隊,通過在去噪過程中靈活注入反向潛碼(inverse latent)和随機噪聲,這樣可以保證已知區域不變,未知區域生成新的内容,然後無需重新訓練就可以直接生成符合提示的新内容,極大提高了視頻擴展比例的魯棒性。
字節海外出品
根據論文顯示,這兩個 AI 視頻項目都是由字節的科學家共同發表,其中五位作者中有四人來自中國,且都曾在字節實驗室做過研究或實習。
通訊作者嚴漢書(Hanshu YAN)是字節跳動新加坡的研究科學家,緻力于視頻 / 圖像生成模型。
他本科畢業于北京航空航天大學電氣工程專業,碩士和 PhD 都在新加坡國立大學,曾在新加坡海洋人工智能實驗室(Sea AI Lab)實習。
來源:Hanshu YAN
Jun Hao Liew 是字節跳動新加坡的計算機視覺科學家,他本科畢業于英國倫敦大學學院(UCL)的電子電氣工程專業,碩士和 PhD 則是在新加坡國立大學就讀,曾在 Adobe 實習。據 Google Scholar 顯示,目前其論文引用量已經有 1400 多。
來源:GoogleScholar
其他幾位作者,也都是在新加坡讀博,并在字節跳動新加坡參與科研。
加速布局 AI 視頻
2023 年的字節跳動在 AI 領域的布局,确實可以用加速跑來形容。
從近期大模型雲雀獲批,到剛剛對外測試 AI 對話産品的豆包,以及 6 月字節跳動旗下火山引擎發布大模型服務平台 " 火山方舟 ",面向企業提供模型精調、評測、推理等全方位的平台服務。
來源:火山引擎
而作爲一家以短視頻起家的互聯網公司,除了深耕 TikTok、抖音等平台外,視頻一直是字節的強關注領域。
比如今年 4 月字節就在美國上架了一款以照片、視頻爲主的應用程序 Lemon8,類似于海外的 Instagram 和 Pinterest 的混合體。除此以外,字節跳動旗下的另一款視頻編輯工具 "CapCut",在蘋果應用商店中被列爲美國最受歡迎的應用軟件之一。
雖然短視頻業務市場占有率不低,但要論擁抱 AI 的速度,字節确實說不上快。對比之下,前段時間美圖發布 2023 上半年财報,得益于 AI 視頻、繪圖等 AIGC 功能的推出,總收入 12.61 億人民币,同比增長了 29.8%。
The Information 此前報道表示,字節跳動 2022 年總收入達到了 850 億美元,同比增長 38%,主要收入來自 TikTok、視頻遊戲和企業軟件等,AI 還未能給字節帶來任何巨大收益。
長按添加「智湧」小助手入群, 備注:公司 + 職務