笑不活,最新虛拟試穿神器被網友們玩壞了。
黃院士、馬斯克、奧特曼、史密斯等一衆大佬衣服集體被扒。
前有老黃卸下皮衣套上糖果包裝袋:
後有奧特曼大秀花臂穿 CUCCI:
再有老馬變成了蛛蛛俠:
好萊塢巨星史密斯也風格大變:
但說回研究本身,确實正兒八經的研究。
名爲IDM – VTON,由來自韓國科學技術院和 OMNIOUS.AI 公司的研究團隊基于擴散模型打造。
目前官方放出了 demo,大夥兒可以試玩,推理代碼已開源。
除了開頭所展示的,抱抱臉研究員也玩的不亦樂乎,給老黃換上了專屬戰袍。其 CEO 連忙轉發打趣:
我被替代了,沒法和他争 CEO。
看熱鬧的網友也是感慨,經過這麽多年,終于不用再擔心自己 " 手殘 " 了(AI 幫你搞定)。
來玩啊~
我們也趕緊上手體驗了一把。demo 整個頁面是這樣嬸兒的:
操作起來也是非常簡單。
首先上傳人物圖,可以手動或者自動選擇要修改的區域。然後,上傳要換的衣服。
直接點擊 Try-on,會自動生成掩模圖和換裝後的圖:
上面這張自動生成的掩模把手也選進去了,所以最後生成的左手效果不好。
我們手動選取塗抹一下,同時人和衣服全部都用我們自己的圖。
這次效果大夥兒覺得如何?
再來展示一波網友的試玩成品圖。
DeepMind 聯合創始人蘇萊曼穿上了微笑面具修格斯聯名款 T 恤:
甚至不少網友真想要這件衣服。
奧特曼再次被網友當成模特:
當然也有翻車的時候,比如馬斯克穿的就是山寨 CUCCI。
看完效果後,接着來看 IDM – VTON 在技術上是如何實現的。
基于擴散模型
技術方面,IDM – VTON 基于擴散模型,通過設計精細的注意力模塊來提高服裝圖像的一緻性,并生成真實的虛拟試穿圖像。
模型架構大概包含三部分:
TryonNet:主 UNet,處理人物圖像。
IP-Adapter:圖像提示适配器,編碼服裝圖像的高級語義。
GarmentNet:并行 UNet,提取服裝的低級特征。
在爲 UNet 提供輸入時,研究人員将人物圖片的含噪聲潛在特征、分割掩模、帶掩蔽的圖片和 Densepose 數據整合在一起。
他們還會爲服裝添加詳細描述,例如 [ V ] 表示 " 短袖圓領 T 恤 "。這個描述随後用作 GarmentNet(例如," 一張 [ V ] 的照片 ")和 TryonNet(例如," 模特正在穿 [ V ] ")的輸入提示。
TryonNet 和 GarmentNet 産生的中間特征進行了合并,随後傳遞至自我注意力層。研究人員隻使用了來自 TryonNet 的輸出的前半部分。這些輸出與文本編碼器和 IP-Adapter 的特征一起,通過交叉注意力層進行融合。
最終,研究人員對 TryonNet 和 IP-Adapter 模塊進行了精細調整,并鎖定了模型的其它部分。
實驗階段,他們使用 VITON-HD 數據集訓練模型,并在 VITON-HD、DressCode 和内部收集的 In-the-Wild 數據集上進行評估。
IDM – VTON 在定性和定量上都優于先前的方法。
IDM-VTON 可以生成真實的圖像并保留服裝的細粒度細節。
更多細節,感興趣的家人們可以查看原論文。
項目鏈接:
[ 1 ] https://idm-vton.github.io/?continueFlag=589fb545dbbb123446456b65a635d849
[ 2 ] https://arxiv.org/abs/2403.05139
[ 3 ] https://huggingface.co/spaces/yisol/IDM-VTON?continueFlag=589fb545dbbb123446456b65a635d849
參考鏈接:
[ 1 ] https://twitter.com/multimodalart/status/1782508538213933192
[ 2 ] https://twitter.com/fffiloni/status/1783158082849108434
[ 3 ] https://twitter.com/ClementDelangue/status/1783179067803533577
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~