AI 圖像生成,已經進入了秒速級别,隻要 4 步推理就能完成繪制,最快更是能在 1 秒之内完成。
現在,清華大學聯合 HuggingFace 的研究人員,推出了全新的繪圖模型加速模塊。
作者給出的體驗版當中,點擊生成按鈕後,模型隻用了幾秒鍾就繪制出了 4 張清晰的圖像。
這個加速模塊叫做 LCM-LoRA,發布後不久就斬獲了 2k+ 次 GitHub 星标。
它不僅加速能力強、泛化性能好,适配的模型也很廣泛,SD 系和 LoRA 模型都能用它來加速。
團隊基于 LCM-LoRA 自行優化的文生圖模型已在 HuggingFace 上開放體驗,圖生圖模型也推出了 CoLab 等版本。
AI 繪圖工具迅速接入
LCM-LoRA 開源後不久,就有 AI 繪圖工具廠商 Scenario 宣布将基于它推出 " 實時繪圖 " 功能。
Scenario 的 CEO 還在上親自展示了即将上線的實時繪圖功能 DEMO。
隻見一邊在繪制草圖,另一邊 AI 就把相應的畫作繪制好了,時間上幾乎同步。
調整提示詞和有關參數,模型響應得也是幹脆利落。
這些 DEMO 發布後,引發了衆人的一緻贊歎。
那麽,LCM-LoRA 這個加速模塊到底有多強,又是怎樣實現的呢?
" 跳步 " 降低内存開銷
LCM-LoRA 将 LoRA 引入潛在一緻性模型(LCM)的蒸餾過程,顯著減少了訓練内存開銷,從而提高性能。
而 LCM 是從潛擴散模型(LDM)中蒸餾出來的," 蒸餾 " 的過程也可以看做是對擴散模型的微調。
它的核心思想是在圖像的隐變量空間中學習一緻性映射函數,該函數可以直接将擴散過程中的任意點映射到終點,即微分方程的解。
通過這種一緻性映射,LCM 可以跳過叠代采樣過程,直接進行少步甚至一步采樣,從而極大地加速了圖像的生成。
而隐變量空間操作相比基于像素空間的方法,計算複雜度和内存需求也更低。
結合 LoRA 後,隻需要訓練低秩分解矩陣,可訓練參數量和内存開銷進一步減少,應用範圍也從單純的文生圖擴展到了圖生圖和視頻生成。
最直觀體現的就是我們看到的秒速出圖,而訓練時間上,LCM-LoRA 優化後的模型在 A100 上訓練隻需 32 個 GPU 時。
訓練時間縮短的背後,也于訓練參數量大幅減少密切相關:
SD-V1.5 全量參數爲 980 億,使用 LoRA 後可訓練參數減少到 6750 萬,約減少了 99.9%。
SSD-1B 參數從 130 億減少到 1.05 億,約減少了 99%。
SDXL 參數從 350 億減少到 1.97 億,約減少了 99.4%。
不僅是訓練消耗的降低,推理過程中的步數也大幅減少,一般隻需要 4 步推理就能繪制出質量不錯的圖像。
有時甚至隻要一步就能完成,用時還不到 1 秒,FID 分數(越低越好)在 50 以下。
不僅加速性能優異,LCM-LoRA 的适配性也十分廣泛。
LCM-LoRA 訓練得到的 LoRA 參數又稱爲加速向量,可以數據集上微調得到的 LoRA 參數直接線性組合,不需要額外訓練。
這種組合方式使得 LCM-LoRA 成爲一個可直接插接到各種微調模型中的通用圖像生成加速模塊。
作者簡介
LCM 和 LCM-LoRA 論文的兩位主要作者是來自清華大學交叉信息研究院的研究生駱思勉(Simian Luo)和 Yiqin Tan。
清華叉院的黃隆波副教授、李建副教授和趙行助理教授也參與了這兩項研究。
在 LCM-LoRA 的工作中,來自 HuggingFace 的研究人員亦有貢獻。
論文地址:
[ 1 ] https://arxiv.org/abs/2310.04378
[ 2 ] https://arxiv.org/abs/2311.05556