等了 7 分多鍾,剛從北京閃現閃離的馬斯克,他終于誇我是個人才:
好了,别罵詐騙,我全都招!
現在登錄通義App(原通義千問),選擇全民演唱功能,隻需上傳任意一張人物正面大頭照,你也能玩兒了。
這個功能開放不到一周時間,但經量子位觀察,還挺火。
熱度一直沒掉下去,關鍵是生成時間也跟熱度一起高居不下,順利的話幾分鍾生成的小視頻,擠的時候排隊能排出好幾個小時開外,虧得是阿裏雲服務器沒被擠爆(不是)。
從國内外的網友分享反饋來看,大家還挺喜歡文藝複興,最受歡迎的片段是讓個路人馬輪番演唱《野狼 Disco》。
除了唱歌,還能把朋友放進(非)著名表情包念台詞。
玩兒梗的人太多,以至于馬斯克都給搞 EMO 了:
而這背後的 " 始作俑者 ",就是來自阿裏通義實驗室的 EMO,繼 Sora 之後熱度第二高的 AI 視頻項目。
如今一個月過去,星标數已經直奔 7k 而去。
趁此熱度,我們也得到了一個與 EMO 背後大佬,阿裏通義實驗室 XR 實驗室負責人薄列峰當面催更的機會。
他表示在放心把技術開源之前,首先還是要解決安全問題。
負責人講解背後技術
距項目公開僅 2 個月,通義實驗室團隊就直接将這一技術免費開放,但所有人都可以在通義 APP(原通義千問)體驗全新的 AIGC 玩法。
如果你想親自上手試試,打開對話輸入"EMO"直達或進入 " 頻道 " 選擇" 全民舞台 "即可。
選擇喜歡的音頻片段,并上傳一張大頭照。
如果在熱門時段,需要等待 40 分鍾到幾個小時不等,但其實主要是在排隊。薄列峰透露,單純生成 10 秒視頻,隻需要 10-15 分鍾。
對于上傳的照片,系統首先會進行人臉檢測,不過有些長得太像人的動物也能順利蒙混過關!
比如撞臉莫言的小狗,就成功地騙過了系統。
但是撞臉餘華的小狗就沒那麽幸運了,系統一下子就把它給識破了(沒有任何對餘華老師不敬的意思)。
爲什麽隻需要上傳一張圖就能立即做到逼真效果?
薄列峰介紹,EMO 的核心思路是 " 弱控制設計 ",無需對整個面部建模,這一點甚至體現在了論文标題上。
在生成過程中,面部定位器(Face Locator)用來編碼面部的邊界框區域。
速度編碼器(Speed Encoder)确保頭部運動的速度與音頻的節奏和強度相匹配。
這些控制機制被稱爲 " 弱控制 " 是因爲它們提供的控制不是強制性的或硬性的,而是允許一定程度的自然變化和表現力。
例如,面部區域控制器并不嚴格限定面部的具體位置,而是給出了一個允許面部運動的較大區域。同樣,速度控制器并不精确控制每一幀的速度,而是提供一個速度範圍,讓生成的頭部運動接近但不一定完全符合指定的速度水平。
通過使用這些弱條件,EMO 框架能夠在保持角色身份一緻性的同時,生成具有豐富表情和自然頭部運動的視頻,從而在表達性和逼真度方面取得更好的效果。
比起傳統的分别針對眼睛鼻子嘴等部位的建模方案,EMO 更着重考慮整個面部的聯合運動,最終效果也就可以做到自然流暢了。
另外薄列峰還透露,選擇這個技術路線也是出于實用性、普及性的考慮。
一張圖、一段音頻,每個人都非常容易獲取,門檻低一些,讓大家都能玩起來。
關于 EMO 的技術選擇,薄列峰還透露了一個消息。
雖然 EMO 使用傳統基于 U-net 的擴散模型架構,但 Pipeline 是解耦的,如果後續嘗試 Sora 同款 DiT 架構做到更好效果的話,也可以輕松切換過去。
對于未來發展方向,EMO 目前隻做了人頭,将來還會擴展到半身、全身。到時候,能實現一張照片讓人物同時唱跳 RAP 籃球也說不定。
高于平均水平的 AIGC 内容才會被消費
在此之前,EMO 背後通義實驗室所推項目中,最火的是與 EMO 一脈相承的 Animate Anyone 模型。
代表傑作:奶牛貓跳舞。
算法原理上,EMO 和 Animate Anyone 都采用了 Backbone + ReferenceNet 的結構,實現有參考圖像引導的去噪生成過程。
其中,Animate Anyone 在實現了保留特定對象 ID 的生成式模型的基礎上,進一步證明可以通過一些輸入控制信号控制生成内容,特别是人物的動作。
所以其實背後團隊是專注數字人的團隊,沒想到在通義 App 上包裝成 " 全民舞王 " 後,大家對動物玩法更感興趣。
一個多月前,團隊還在全民舞王針對小貓小狗等動物主體檢測做了一半優化,使上傳動物照片的通過率大幅度提升。
即使檢測出來用戶上傳的是動物,隻要通過了骨骼檢測,啥小動物都可以起來嗨。
" 現在技術确實可以生成很多的圖片、視頻,但如果他們都是平均甚至低于平均水平,大家不見得有興趣去消費。" 薄列峰笑道,奶牛貓跳舞确實很妖娆," 這給我們把鏈路打通帶來更多的思考——把簡單高質量的内容,通過新技術去實現可能。"
聊天最後,薄列峰還給大家推薦了一個 EMO 的私房玩法:
可以試試拿自己 5 歲、10 歲、15 歲……的照片,自己對話,自己合唱。
值得一試喲~
— 聯系作者 —
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~