大佬何恺明還未正式入職 MIT,但和 MIT 的第一篇合作研究已經出來了:
他和 MIT 師生一起開發了一個自條件圖像生成框架,名叫 RCG(代碼已開源)。
這個框架結構非常簡單但效果拔群,直接在 ImageNet-1K 數據集上實現了無條件圖像生成的新 SOTA。
它生成的圖像不需要任何人類注釋(也就是提示詞、類标簽什麽的),就能做到既保真又具有多樣性。
這樣的它不僅顯著提高了無條件圖像生成的水平,還能跟當前最好的條件生成方法一較高下。
用何恺明團隊自己的話來說:
有條件和無條件生成任務之間長期存在的性能差距,終于在這一刻被彌補了。
那麽,它究竟是如何做到的呢?
類似自監督學習的自條件生成
首先,所謂無條件生成,就是模型在沒有輸入信号幫助的情況下直接捕獲數據分布生成内容。
這種方式比較難以訓練,所以一直和條件生成有很大性能差距——就像無監督學習比不過監督學習一樣。
但就像自監督學習的出現,扭轉了這一局面一樣。
在無條件圖像生成領域,也有一個類似于自監督學習概念的自條件生成方法。
相比傳統的無條件生成簡單地将噪聲分布映射到圖像分布,這種方法主要将像素生成過程設置在從數據分布本身導出的表示分布上。
它有望超越條件圖像生成,并推動諸如分子設計或藥物發現這種不需要人類給注釋的應用往前發展(這也是爲什麽條件生成圖像發展得這麽好,我們還要重視無條件生成)。
現在,基于這個自條件生成概念,何恺明團隊首先開發了一個表示擴散模型 RDM。
它主要用于生成低維自監督圖像表示,方法是通過自監督圖像編碼器從圖像中截取:
它的核心架構如下:
首先是輸入層,它負責将表征投射到隐藏維度 C,接着是 N 個全連接塊,最後是一個輸出層,負責把隐藏層的潛在特征重新投射(轉換)到原始表征維度。
其中每一層都包含一個 LayerNorm 層、一個 SiLU 層以及一個線性層。
這樣的 RDM 具有兩個優點:
一是多樣性強,二是計算開銷小。
接着,利用 RDM,團隊就提出了今天的主角:表示條件圖像生成架構 RCG。
它是一個簡單的自條件生成框架,由三個組件組成:
一個是 SSL 圖像編碼器,用于将圖像分布轉換爲緊湊的表示分布。
一個是 RDM,用于對該分布進行建模和采樣。
最後是一個像素生成器 MAGE,用于根據表示來處理圖像像。
MAGE 的工作方式主要是向 token 化的圖像中添加随機掩碼,并要求網絡以從同一圖像中提取的表示爲條件來重建丢失的 token。
最終,測試表明,這個自條件生成框架雖結構簡單但效果非凡:
在 ImageNet 256 × 256 上,RCG 實現了3.56 的 FID 和 186.9 的 IS(Inception Score)得分。
相比之下,在它之前最厲害的無條件生成方法 FID 分數爲 7.04,IS 得分爲 123.5。
以及,相比條件生成,RCG 也絲毫不遜色,可以達到相當甚至超過該領域基準模型的水平。
最後,在無分類器引導的情況下,RCG 的成績還能進一步提高到 3.31(FID)和 253.4(IS)。
團隊表示:
這些結果表明,自條件圖像生成模型擁有巨大潛力,可能預示這一領域新時代的到來。
團隊介紹
本文一共三位作者:
一作是 MIT 博士生黎天鴻,本科畢業于清華姚班,研究方向爲跨模态集成傳感技術。
他的主頁很有意思,還專門放了一個菜譜合集——做研究和做飯是他最熱愛的兩件事。
另一位作者是 MIT 電氣工程與計算機科學系(EECS)教授、MIT 無線網絡和移動計算中心主任 Dina Katabi,她是今年斯隆獎的獲得者,并已當選美國國家科學院院士。
最後,通訊作者爲何恺明,他将在明年正式回歸學界、離開 Meta 加入 MIT 電氣工程和計算機科學系,與 Dina Katabi 成爲同事。
論文地址:
https://arxiv.org/abs/2312.03701
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~