具備原生中文理解能力,還兼容 Stable Diffusion 生态。
最新模型結構Bridge Diffusion Model來了。
與 Dreambooth 模型結合,它生成的穿中式婚禮禮服的歪國明星長這樣。
它由 360 人工智能研究院提出,最近剛被 AAAI 接收,并已開源。
類似 ControlNet 的分支網絡思路
文生圖模型的中文原生問題,一直是一個重點研究問題。
受算力和數據因素的限制,國内大量的中文 AI 繪畫産品背後,實際上很多是以開源的英文模型及其微調模型爲能力基座,但是,英文模型包括且不限于 SD1.4/1.5/2.1/3.5 以及 DALLE、Midjourney、Flux 等,因爲這些模型的訓練數據以英文數據爲主,因此在生成圖像時,主體形象包括人物、物品、建築、車輛、服飾、标志等,都存在非常普遍和明顯的英文世界觀偏見。
BDM 是我們在多模态生成方向比較早期的工作,關注兩個關鍵問題:
1)原生中文及生成模型的世界觀偏見
2)與 SD 生态的兼容性
冷大炜博士對 BDM 工作的主要着眼點做了如上的精煉概括。
" 原生中文 " 問題指的不僅僅是文生圖模型支持中文輸入,更核心的是要求模型生成的人、物形象應該符合中文文化的認知。
下圖是 AI 繪畫模型的世界觀偏見實例,從左到右分别是 SDXL,Midjourney,國内友商 B*,國内友商 V*:
中文 AI 繪畫模型,從實現的路線選擇上,從易到難大緻有以下幾種方式:
英文模型 + 翻譯。
簡單直接,除了翻譯外幾無成本。這種方式隻能解決表面上的中文輸入問題,并不能解決英文模型因爲模型偏見而無法生成符合中文文化認知形象的問題。
英文模型 + 隐式翻譯。
與顯式調用翻譯服務不同,這種方式是将英文模型的 text encoder 替換爲中文 text encoder,并利用中英文平行語料對中文 text encoder 進行訓練,使其輸出的 embedding 空間與原來的英文 text encoder 對齊。本質上屬于一種隐式翻譯,也是成本非常低的一種方案,同樣無法解決模型的世界觀偏見問題。
英文模型 + 隐式翻譯 + 微調。
在上面方法基礎上,将對齊了 text encoder 的模型使用中文圖文數據進一步整體微調以提升模型對中文形象的輸出能力。可以在一定程度上緩解英文基底模型帶來的模型偏見問題。
中文數據從頭訓練。
這是最徹底的一種中文化方案:理解中文輸入,并能給出符合中文文化認知的圖像輸出結果,可以完美解決模型的世界觀偏見問題。
上述四種路線,第 4 種路線看上去非常完美,但仍有一點值得額外的研發努力:在基座模型之外,我們需要進一步考慮的是大模型時代的模型生态問題。
圍繞着以 SD 爲代表的開源模型,已形成了非常龐大的開源社區生态,這個生态中大量衍生風格模型、插件模型等積累了非常寶貴的群體智力資産。
在克服 AI 繪畫模型世界觀偏見的基礎上,進一步實現對開源社區的兼容,就是我們的 BDM 工作所要解決的第二個關鍵問題。
BDM 從模型結構上是一種類似 ControlNet 的分支網絡思路,以不同的網絡分支學習不同語言的數據,因此從原理上 BDM 不僅可以實現原生中文圖像生成,也可以實現任意 X 語言的圖像生成,并保證生成的圖像符合對應語言文化的認知。
英文部分可以直接複用已有的開源模型,從而實現與開源社區的無縫兼容。注意 BDM 在使用時隻需要輸入一種語言,比如輸入中文時,英文分支是以空文本作爲輸入的。
BDM v1 版本使用 10 億量級的中文圖文數據進行訓練,并兼容 SD1.5 社區生态。
下圖展示了 BDM 在生成中文特有概念的能力和翻譯無法應對的中英多義情況下的生成效果:
下圖則展示了 BDM 在 SD1.5 社區生态兼容性上的情況,可以看到 BDM 對不同的 SD1.5 風格微調模型具有很好的兼容性,特别是 BDM 同時保持了中文形象的輸出能力,更多案例請詳見 AAAI 論文。
關于 360 人工智能研究院
在 360 集團 All in AI 的大背景下,360 人工智能研究院發揮自身的智力優勢,承擔多模态理解和多模态生成大模型(俗稱圖生文和文生圖)的戰略研發任務,并在兩個方向上持續發力,陸續研發了 360VL 多模态大模型,BDM 文生圖模型,可控布局 HiCo 模型,以及新一代 DiT 架構 Qihoo-T2X 等一系列工作。
近日,研究院在多模态理解方向的工作 IAA 和在多模态生成方向的工作 BDM 分别被 AI 領域的 top 會議 AAAI 接收,這兩項工作的研發負責人爲冷大炜博士。
據悉本屆 AAAI 2025 會議收到近 1.3 萬份投稿,接收 3032 份工作,接收率僅爲 23.4%。
Arxiv: https://arxiv.org/abs/2309.00952
Github: https://github.com/360CVGroup/Bridge_Diffusion_Model
— 完 —
投稿請發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回複你
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>