Sora 複刻版出現了——
Mora,還是多智能體那種。
△Mora:模拟數字世界
Sora 有的能力它基本都有,比如文本轉視頻、擴展視頻、視頻編輯、視頻拼接、模拟數字世界等等。
還支持生成 1024*576 分辨率的 12 秒視頻。
這項研究來自理海大學微軟研究院的華人團隊。他們運用多個視覺 agent,在多個任務中表現接近 Sora。
既如此,且來看 Mora 究竟實力如何。
Mora 複刻 Sora
先來看效果。
首先是文本到視頻的生成。
In the middle of a vast desert, a golden desert city appears on the horizon, its architecture a blend of ancient Egyptian and futuristic elements.The city is surrounded by a radiant energy barrier, while in the air, seve
( 在廣袤的沙漠中,一座金色的沙漠城市出現在地平線上,其建築融合了古埃及和未來元素。 )
效果還不錯,有點三體内味了。
再來看,基于文本提示的圖像到視頻生成。
不妨就拿 Sora 視頻比較一下。
除此之外,還支持視頻編輯,比如修改一下視頻裏的車、給車鋪上一條彩虹之路。
這個效果嘛,就還有進步空間 ~
不過跟 Sora 同款的視頻拼接,是可以 Hold 住的。
多智能體框架
研究團隊提出了一個多智能體框架 Mora。
他們認爲解決不同視頻生成任務,需要不同專業能力 agent 協作。爲此,Mora 框架中有 5 個基本角色組成:
Prompt 選擇和生成 agent、文本到圖像生成 agent、圖像到圖像生成 agent、圖像到視頻生成 agent、視頻到視頻 agent。
每個 agent 負責特定的輸入和輸出,通過設置 agent 的角色和操作技能,團隊定義了各種任務基本工作流程。
根據任務不同,采用特定的 agent 組合。
目前他們主要設計了六個工作流:
文本到視頻生成;文本條件圖像到視頻生成;擴展生成的視頻;視頻到視頻編輯;連接視頻以及模拟數字世界。
最終,在各個任務中,Mora 的表現都接近 Sora。
團隊認爲,Mora 作爲開源多 agent 框架,具有一定的靈活性和效率,還能無縫集成各種模型。
但與此同時,也有一定的進步空間。比如高質量視頻數據集的需求、指令遵循能力的提升、人類視覺偏好對齊等。
理海微軟團隊
此次研究來自理海大學孫力超團隊,此外還有微軟研究院研究員參與。
前段時間,同樣也是這個團隊用 37 頁論文逆向工程解剖 Sora。
感興趣的朋友可戳下方鏈接:
https://arxiv.org/abs/2403.13248
https://github.com/lichao-sun/Mora