快科技 2 月 20 日消息,2 月 16 日,OpenAI 發布其首款文生視頻大模型 Sora。
Sora 可根據文字提示生成 60 秒視頻,輸出視頻堪比影視 CG,一經發布火爆出圈。
據國家知識産權局網站顯示,2 月 2 日,清華大學申請的 " 一種定制化多主體文生視頻方法、裝置、設備及介質 " 專利公布。
專利摘要顯示,該申請提供一種定制化多主體文生視頻方法、裝置、設備及介質,涉及神經網絡技術領域。
申請包括:獲取多個主體分别對應的主體文本表述以及主體圖像;基于多個主體分别對應的主體文本表述以及主體圖像,獲取混合文本以及組合圖像。
将混合文本以及組合圖像輸入文生視頻模型,生成第二噪聲預測值,并基于第二噪聲預測值與組合圖像,獲取第二損失和第三損失;基于第一損失、第二損失與第三損失,對文生視頻模型進行優化,得到優化的文生視頻模型。
該申請通過多種損失對文生視頻模型的參數進行優化,使優化的模型基于文本描述生成視頻中的圖像時,文本描述與定制化主體保持一緻,且在每個主體在生成過程中的特征不會發生混淆的同時消除合成痕迹。