打造更強大文生圖模型新思路有——
面對 Flux、stable diffusion、Omost 等爆火模型,有人開始主打" 集各家所長 "。
具體來說,清北、牛津、普林斯頓等機構的研究者提出了⼀個全新文生圖框架 IterComp。
它能提取不同模型在各自領域的優勢,同時不引入額外的複雜指令或增加計算開銷。
論文一經發布,即在(前推特)獲得 AI 論文領域大 V 轉發,吸引大量關注。
那麽,研究人員具體是如何實現的呢?
全新文生圖框架:IterComp
⾃ 2022 年以來,基于 diffusion 的文生圖模型取得了快速發展,尤其在複雜組合生成(complex/compositional generation)任務上取得了顯著進展。
例如,今年 8 月發布的 Flux 展現出了十分震撼的複雜場景生成能力與美學質量;
RPG 通過 MLLM 的輔助,将複雜的組合生成任務分解爲簡單子任務;
InstanceDiffusion 通過布局控制(layoutbased),實現了與布局分布高度一緻的精确圖像生成。
然而,這些模型的優勢僅限于某些特定的組合生成任務,且存在諸多局限。
基于文本的生成方法(如 SDXL、SD3、Flux 等),由于其訓練數據和框架的優勢,在物體與場景的模拟上表現出色,特别在美學質量、屬性綁定和非空間關系(non-spatial relationships)方面具有顯著優勢。
然而,當涉及多個物體,且存在複雜的空間關系時,這類模型往往表現出明顯不足。
基于大語言模型(LLM-based)的生成方法,如 RPG 和 Omost,通常需要對 LLM 進⾏額外訓練或設計複雜的提示。
然而,對于 LLM 處理後的複雜指令,diffusion backbone 并不具備精确生成的能力。
基于布局(layourbased)的生成方法,如 Instancediffusion 和 LMD+,雖然提供了精确的控制,但在圖像的美學質量和真實性上存在明顯下降,并且需要人爲設計布局。
因此,一個值得深⼊探讨的問題是:
能否設計出一個強大的模型,在上述多個方面都表現出⾊,同時不引入額外的複雜指令或增加計算開銷?
基于此,研究人員提出一個全新的文生圖框架:IterComp。
要充分解決這⼀問題,研究面臨兩大難點:
1、如何提取不同模型在各自領域的優勢,并引導模型進行有效學習?
針對該問題,研究人員首先構建了模型庫(model gallery ) ,其包含多種在不同方面表現出色的模型,每個模型都具備特定的組合生成偏好(composition-aware model preference)。
研究人員嘗試通過擴散模型對齊方法,将 base diffusion model 與模型庫中的組合生成偏好進行對齊。
團隊聚焦于 compositional generation 的三個關鍵方面:
屬性綁定(attribute binding)
空間關系(spatial relationship)
⾮空間關系(non-spatial relationship)
爲此,研究人員收集了不同模型在這些方面的偏好數據,并通過人工排序,構建了⼀個面向組合生成的模型偏好數據集(composition-aware model preference dataset)。
針對這三個方面,團隊分别訓練三個 composition-aware reward models,并對 base 模型進行多獎勵反饋優化。
2、組合生成任務很難優化,如何更充分地學習到不同模型的組合偏好?
研究人員在 diffusion 領域創新地引入叠代式學習框架(iterative feedback learning),實現 reward models 與 base diffusion model 之間 " 左腳踩右腳登天 "。
具體來說,在上述第一輪優化後,團隊将 optimized base diffusion model 以及額外選擇的其他模型(例如 Omost 等)添加進 model gallery。
對新增模型進行偏好采樣,與初始 model gallery 中的圖像按照預訓練的 reward model 構建圖像對。
這些圖像對被用于進⼀步優化獎勵模型,随後繼續用更新的獎勵模型優化基礎擴散模型。
具體的流程如下僞代碼所示:
實驗
在定性實驗中,與其他三類 compositional generation 方法相比,IterComp 取得了顯著的組合質量的提升,并且不會引入額外的計算量。
從定量結果中可以看出,IterComp 在 T2I-CompBench 上取得了各方面的領先。
另外,針對圖像真實性以及美學質量,IterComp 也表現出色。
然而 IterComp 的應用潛力不限于此,其可以作爲強大的 backbone 顯著提升 Omost, RPG 等模型的生成能力。
更多細節歡迎查閱原論文。
論文地址:
https://arxiv.org/abs/2410.07171
代碼地址:
https://github.com/YangLing0818/IterComp
模型地址:
https://huggingface.co/comin/IterComp
Civitai:
https://civitai.com/models/840857
— 完 —
投稿請發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回複你
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>