AI 畫畫通用模型,新增一員大将!
由阿裏達摩院副院長周靖人等人打造的可控擴散模型Composer,一經發布就小火了一把。
這個模型由50 億參數訓練而來,和 Stable Diffusion 原理不同。
它更進一步把訓練圖像拆解成了多個元素,然後基于這些元素訓練擴散模型,讓它們能夠靈活組合。
由此一來,模型的創造能力就比僅基于圖像大很多。
如果有 100 張能拆分成 8 個元素的圖像,那麽就能生成一個數量爲 100 的 8 次方的結果組合。
網友們看了紛紛表示,AI 畫畫發展速度也太快了!
團隊表示,模型的訓練和推理代碼都在路上了。
有限手段的無限使用
該框架的核心思想是組合性(compositionality),模型名字就叫做Composer。
觀察到現下很多 AI 畫畫模型,在細節的可控性上還沒有做到很好,比如準确改變顔色、形狀等。
研究團隊認爲,想要實現圖像的可控生成,不能依賴于對模型的調節,重點應該放在組合性上,這種方式可以将圖像的創造力提升到指數級。
引用語言學大師諾姆 · 喬姆斯基的經典語錄來解釋模型,就是:
有限手段的無限使用。
具體來看,該模型就是将每個訓練圖像拆解成一系列基礎元素,如蒙版圖、草稿圖、文字描述等,用它們來訓練一個擴散模型。
然後讓這些被拆分的元素,在推理階段靈活組合,生成大量新的圖像輸出。
它可以支持多種形式作爲輸入。比如文字描述作爲全局信息,深度圖和草圖作爲局部引導,顔色直方圖爲低級細節等。
在保證生成圖像可控的基礎上,作爲一個通用框架,該模型還能不用再訓練就可以完成大量經典生成任務。
舉例來看,圖(a)中,最左邊的是原圖,後面 4 個是通過對 Composer 不同子集的表示進行調節而生成的新結果。
圖(b)展示的是圖像插值的結果。
圖像重構的話是醬嬸兒的,Composer 能夠簡單地改變圖像表示來重新配置圖像,比如草稿圖和分割圖。
還有對圖像的特定部分進行編輯。
比如給蛋糕派換口味、把珍珠耳環少女的臉換成梵高、讓兔子長一張熊貓臉等。
比較經典的圖像生成任務也能挑戰,而且無需再訓練。
團隊表示,現有成果還存在一定局限性,比如在單一條件輸入的情況下,生成效果不是很好。以及輸入不同語義的圖像和文本嵌入時,生成結果會降低對文本嵌入的權重。
而針對 AI 畫畫模型都需要面對的風險問題,團隊表示爲避免被濫用,他們會在公開模型前先創建一個過濾版本。
達摩院副院長帶隊
該研究由阿裏及螞蟻團隊完成。
通訊作者爲周靖人。
他現任阿裏達摩院副院長、阿裏雲智能 CTO,是 IEEE Fellow。
2004 年于哥倫比亞大學獲得計算機博士學位,後加入微軟擔任研發合夥人。
2015 年,周靖人加入阿裏巴巴集團,先後負責過達摩院智能計算實驗室、大數據智能計算平台、搜索推薦事業部等。
論文一作Huang Lianghua同樣來自達摩院,研究方向爲擴大模型規模和數據來表示學習和内容生成。
論文地址:
https://arxiv.org/abs/2302.09778
GitHub 地址:
https://github.com/damo-vilab/composer