騰訊版Sora發布即開源！130億參數，模型權重、推理代碼全開放

騰訊版 Sora，發布即開源！

130 億參數，成爲目前參數量最大的開源視頻生成模型。模型權重、推理代碼、模型算法等全部上傳 GitHub 與 Hugging Face，一點沒藏着。

實際效果如何呢？

不瞞你們說，我真的看見一隻大熊貓，在跳廣場舞、吃火鍋、打麻将，請看 VCR：

到底是來自四川的貓！

目前該模型已上線騰訊元寶 APP，用戶可在 AI 應用中的 "AI 視頻 " 闆塊申請試用。

API 同步開放測試，開發者可通過騰訊雲接入。‍‍‍‍‍‍‍

騰訊混元視頻生成主打四大特點：

超寫實畫質，模型生成的視頻内容具備高清質感、真實感，可用于工業級商業場景例如廣告宣傳、創意視頻生成等商業應用。

高語義一緻，用戶可以進行細緻的刻畫，例如生成主體的細節，人物概念的組合等。模型可以準确的表達出文本的内容。

運動畫面流暢，可生成大幅度的合理運動，運動鏡頭流暢、符合物理規律，不易變形。

原生鏡頭轉換，模型原生具備自動生成多視角同主體的鏡頭切換畫面，增強畫面叙事感。

那麽實際表現能否符合描述？下面結合實例一一拆解。

首先是沖浪題材，涉及到畫面大幅度運動，水的物理模拟等難點。

提示詞中還特别指定了攝像頭的運動，騰訊混元表現出流暢運鏡的能力，隻是在 " 最後定格在… " 這個要求上稍顯不足。

提示詞：超大海浪，沖浪者在浪花上起跳，完成空中轉體。攝影機從海浪内部穿越而出，捕捉陽光透過海水的瞬間。水花在空中形成完美弧線，沖浪闆劃過水面留下軌迹。最後定格在沖浪者穿越水簾的完美瞬間。

鏡子題材，考驗模型對光影的理解，以及鏡子内外主體運動是否能保持一緻。

提示詞中的白床單元素又加大了難度，涉及到的布料模拟，也符合物理規律。

不過人們想象中的幽靈一般沒有腳，AI 似乎沒學到，又或者是跳舞涉及大量腿部動作，産生了沖突。

穿着白床單的幽靈面對着鏡子。鏡子中可以看到幽靈的倒影。幽靈位于布滿灰塵的閣樓中，閣樓裏有老舊的橫梁和被布料遮蓋的家具。閣樓的場景映照在鏡子中。幽靈在鏡子前跳舞。電影氛圍，電影打光。

接下來是騰訊混元視頻生成主推的功能之一，在畫面主角保持不變的情況下自動切鏡頭，據了解是業界大部分模型所不具備的能力。

一位中國美女穿着漢服，頭發飄揚，背景是倫敦，然後鏡頭切換到特寫鏡頭。

再來一個綜合型的複雜提示詞，對主角外貌、動作、環境都有細緻描述，畫面中還出現其他人物，騰訊混元表現也不錯。

特寫鏡頭拍攝的是一位 60 多歲、留着胡須的灰發男子，他坐在巴黎的一家咖啡館裏，沉思着宇宙的曆史，他的眼睛聚焦在畫外走動的人們身上，而他自己則基本一動不動地坐着，他身穿羊毛大衣西裝外套，内襯系扣襯衫，戴着棕色貝雷帽和眼鏡，看上去很有教授風範，片尾他露出一絲微妙的閉嘴微笑，仿佛找到了生命之謎的答案，燈光非常具有電影感，金色的燈光，背景是巴黎的街道和城市，景深，35 毫米電影膠片。

最後附上來自官方的寫 prompt 小 tips：

用法 1：提示詞 = 主體 + 場景 + 運動

用法 2：提示詞 = 主體 ( 主體描述 ) + 場景 ( 場景描述 ) + 運動 ( 運動描述 ) + ( 鏡頭語言 ) + ( 氛圍描述 ) + ( 風格表達 )

用法 3：提示詞 = 主體 + 場景 + 運動 + ( 風格表達 ) + ( 氛圍描述 ) + ( 運鏡方式 ) + ( 光線 ) + ( 景别 )

多鏡頭生成：提示詞 = [ 場景 1 ] + 鏡頭切換到 [ 場景 2 ]

兩個動作生成：提示詞 = [ 主體描述 ] + [ 動作描述 ] + [ 然後、過了一會等連接詞 ] + [ 動作描述 2 ]

怎麽樣，你學會了嗎？

更多騰訊混元生成的視頻，以及與 Sora 同提示詞 PK，還可以看看。

看完效果，再看看技術層面有哪些亮點。

首先從官方評估結果看，混元視頻生成模型在文本視頻一緻性、運動質量和畫面質量多個維度效果領先。

然後從目前公開資料看，騰訊混元視頻生成模型還有三個亮點。

1、文本編碼器部分，已經适配多模态大模型

當下行業中多數視覺生成模型的文本編碼器，适配的主要是上一代語言模型，如 OpenAI 的 CLIP 和谷歌 T5 及各種變種。

騰訊在開源圖像生成模型 Hunyuan-DiT 中适配的是 T5 和 CLIP 的結合，這次更進一步，直接升級到了新一代多模态大語言模型（Multimodal Large Language Model）。

由此能夠獲得更強大的語義跟随能力，體現在能夠更好地應對畫面中存在的多個主體，以及完成指令中更多的細節。

2、視覺編碼器部分，支持混合圖片 / 視頻訓練，提升壓縮重建性能

視頻生成模型中的視覺編碼器，在壓縮圖片 / 視頻數據，保留細節信息方面起着關鍵作用。

混元團隊自研了 3D 視覺編碼器支持混合圖片 / 視頻訓練，同時優化了編碼器訓練算法，顯著提升了編碼器在快速運行、紋理細節上的壓縮重建性能，使得視頻生成模型在細節表現上，特别是小人臉、高速鏡頭等場景有明顯提升。

3、從頭到尾用 full attention（全注意力）的機制，沒有用時空模塊，提升畫面流暢度。

混元視頻生成模型采用統一的全注意力機制，使得每幀視頻的銜接更爲流暢，并能實現主體一緻的多視角鏡頭切換。

與 " 分離的時空注意力機制 " 分别關注視頻中的空間特征和時間特征，相比之下，全注意力機制則更像一個純視頻模型，表現出更優越的效果。

更多細節，可以參見完整技術報告～‍

官網：https://aivideo.hunyuan.tencent.com

代碼：https://github.com/Tencent/HunyuanVideo

模型：https://huggingface.co/tencent/HunyuanVideo

技術報告：https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf

— 完 —

「MEET2025 智能未來大會」

火熱報名中

定檔 12 月 11 日！李開複博士、周志華教授、智源研究院王仲遠院長都來量子位MEET2025 智能未來大會探讨行業破局之道了！

，觀衆報名通道已開啓！歡迎來到 MEET 智能未來大會，期待與您一起預見智能科技新未來

左右滑動查看最新嘉賓陣容

點這裏關注我，記得标星哦～

一鍵三連「點贊」、「分享」和「在看」

科技前沿進展日日相見 ~