現在,圖像生成領域的半壁江山已經被物理學拿下了。
火出圈的 DALL · E 2、Imagen 和 Stable Diffusion,它們共同基于的擴散模型——
都是受到物理熱力學的啟發誕生的。
不僅如此,來自 MIT、收錄于 NeurIPS 2022 的一種比擴散模型效果還要好、速度還要快的新生成模型,則啟發于電動力學。
如此攻勢,讓人不得不感歎:
留給圖像生成的物理模型已經不多了?(手動狗頭)
熱力學如何啟發擴散模型?雛形:從一滴墨水得到啟發
事實上,擴散模型并非從一開始就 " 嶄露頭角 "。
很長一段時間裡,圖像生成領域的王者都非 GAN 莫屬,即便期間不少新模型提出,它的生成效果仍然吊打其他一衆模型。
初版擴散模型也是在這個背景下誕生。
就在 GAN 論文發布的後一年,斯坦福大學博士後 Jascha Sohl-Dickstein 基于 GAN" 沒法學習完整概率分布 " 的缺陷,想到了一個 idea。
對非平衡熱力學有鑽研的他,思考為何不能将物理和圖像生成結合起來?
非平衡熱力學是熱力學的一個分支,專門研究某些不處于熱力學平衡中的物理系統。
典型例子是一滴會在水中擴散的墨水。
在擴散之前,這滴墨水會是在水中的某個地方形成一個大斑點,但如果想模拟墨水開始擴散前的初始狀态概率分布就會非常困難,因為這個分布很複雜、導緻很難采樣。
但随着墨水擴散到水中、水逐漸變成淡藍色,墨水分子将分布得更簡單更均勻,我們就可以很輕松地用數學公式來描述其中的概率。
這時候,非平衡熱力學就上場了,它能将墨水擴散過程中每一步的概率分布都描述出來:
由于擴散過程的每一步都可逆,所以隻要 " 步子 " 足夠小,就可以從簡單的分布再推斷出最初複雜的分布來。
△就像是将這個過程倒放
Jascha Sohl-Dickstein 就是受這個擴散原理的啟發,創建了 " 擴散模型 ",具體分為兩步。
首先,通過某種算法将複雜圖像轉化為簡單的噪聲。
這一過程就類似于一滴墨水擴散到水全部變藍,然後再逆轉這一過程,将噪聲轉化為新圖像。
具體來說,當系統拿到一張訓練圖像,這張圖像的百萬像素中的每一個點都有相應的值,根據這些值就能将像素轉變為百萬維空間中的一個點。
随後,用算法在每個時間步長中向每個像素點添加一些噪聲,相當于墨水的每一步擴散,這樣每個像素的值與其原始圖像中的值之間的關系就會越來越小,直到看起來更像是一個簡單的噪聲分布。
接下來,對數據集中的所有圖像執行這一操作,百萬維空間中一開始由各個點組成的複雜分布(無法輕易描述和采樣),就會變成圍繞原點組成的簡單正态分布。
Jascha Sohl-Dickstein 解釋道:
這個非常緩慢的 " 前向 " 轉換過程就好比将數據分布變成了一個巨大的 " 噪音球 ",提供了一個可以輕松采樣的分布。
然後,再用這些被算法轉換的圖像,訓練得到最終的擴散模型。
具體來說,就是喂給神經網絡從前向轉換過程中獲得的噪聲圖像,訓練它預測之前一步得到的噪聲較小的圖像,在這期間不斷調整參數、改善模型,最終,它就可以将噪聲圖像輸出成我們想要的圖像。
這樣訓練好的神經網絡,無需學習原始圖像,就可以直接采樣生成全新的圖像。
2015 年,Sohl Dickstein 将這個擴散模型的雛形進行了發表。
遺憾的是,盡管它能夠對整個分布進行采樣,也不會隻吐出圖像數據集的 " 子集 ",但能力還遠遠落于 GAN ——既表現在生成質量上,也表現在生成速度上。
改進:造就 DALL · E2、Stable Diffusio 等爆火模型
最終,是兩位博士生的相繼改變,造就了最終的 " 現代版 " 擴散模型。
首先是 2019 年,還在斯坦福大學讀博士的 Yang Song,和他的導師在完全不知道Sohl Dickstein 成果的情況下,想出了一種類似的新方法。
相比 Sohl Dickstein 估計數據(即高維表面)的概率分布的做法,Yang Song 估計的是分布的梯度(即高維表面的斜率)。
而通過先用不斷增加的噪聲水平幹擾訓練集中的每個圖像,然後再讓神經網絡使用分布梯度預測原始圖像,可以非常有效地去噪,最終生成質量很高的圖像。
不過,這種方法的采樣速度非常慢。
好在很快,2020 年,UC 伯克利的 Jonathan Ho 看到了這兩項研究,意識到後者的思路可以用來重新設計和改進 Sohl Dickstein 最開始的那版雛形。
于是,就有了後來大名鼎鼎的 DDPM(Denoising Diffusion Probabilistic Models)——它在所有的任務中,要麼打平、要麼超過所有其他生成模型,包括統治了該領域多年的 GAN。
至此,一個最初啟發于物理學原理的機器學習模型,幾經周轉,最終掀起了 AIGC 領域的熱潮——
我們現在看到的 DALL · E2、Stable Diffusio、SD 和 Imagen ……都是基于 DDPM 這一擴散模型改進而來。
MIT 新電動力學圖像生成模型
現在,又是 " 拜物理學所賜 ",擴散模型也迎來了新的挑戰者。
基于電動力學的啟發,來自 MIT 的研究人員提出了一種新的 " 泊松流 " 生成模型 PFGM("Poisson Flow" Generative Models)。
具體來說,這個生成模型将數據看成空間中新增 z=0 平面上的電荷,電荷産生了空間中的電場。
其中,電荷産生的電場線對應數據采樣過程,電場線的方向即空間中泊松方程的解的梯度。
代表數據的電荷沿着産生的電場線向外移動,最終會形成一個半球面,并在球面半徑足夠大時,電荷在半球面上均勻分布。
與擴散模型中每一步概率分布都是可逆的一樣,電場線也是可逆的。
因此,可以利用這種效果訓練模型,讓它學會通過均勻分布在半球面上的數據,反過來生成 z=0 平面上的數據。例如下圖這個例子,數據分布一開始呈愛心狀,但當數據最終移動到半徑足夠大的半球面上時,它們會呈現出均勻分布狀态:
對應到圖像生成過程中也一樣,z=0 平面上的數據分布,是我們希望生成的圖像。
而生成模型要做的,則是通過半球面上均勻分布的數據,來反向推出希望生成的圖像:
在 CIFAR-10 數據集上的評估中,PFGM 是在一衆類似思路模型中表現最好的,超過了擴散模型。
而且,PFGM 在與擴散模型生成質量差不多的同時,速度要快上 10~20 倍,在速度和生成質量上取得了更好的 " 兼顧 "。
下圖是 PFGM 基于不同數據集訓練後生成圖片的過程,效果确實也是很能打了:
猜猜下一個挑戰圖像生成領域的物理模型會是什麼?
參考鍊接:
[ 1 ] https://www.quantamagazine.org/the-physics-principle-that-inspired-modern-ai-art-20230105/
[ 2 ] https://arxiv.org/abs/2209.11178
[ 3 ] https://arxiv.org/pdf/1503.03585.pdf