朋友,有沒有想過自己在二次元裡長什麼樣?
最近就有這麼樣的一個生成器在國内外火了。
瞧,輸一張羅翔老師的照片," 啪的一下 " 就能生成二次元漫畫風:
一鍵秒變霸道總裁有木有,引得網友紛紛前來圍觀。
甚至就連KFC(肯德基)官方賬号都來湊起了熱鬧,親自打破自家老爺子的次元壁:
各類梗圖更是層出不窮:
在二次元濾鏡下,就連這張經典的 " 女人吼貓 " 都透露出一絲溫馨," 竟然都有點可愛了呢 "。
這就是QQ 小世界在近期推出的二次元形象生成器——" 異次元的我 "。
那麼這層次元壁,又是如何打破的呢?
隻需上傳一張照片
據了解,在 QQ 小世界 " 異次元的我 " 相關話題之下,已經有突破 100 萬的投稿量,浏覽量更是上億。
甚至一度還把 QQ 服務器給擠爆了:
而之所以會呈現如此 " 全民參與 " 的态勢,離不開打破次元壁的簡單操作。
隻需要搜索一句" 免費畫畫 ",便可以看到入口了:
然後僅需現場拍照,或上傳圖片即可:
而且為了能讓二次元風格圖能夠 hold 住各式各樣的圖片," 異次元的我 " 還設置了不同的使用場景,讓适配度變得更高:
不得不說,打破次元壁這件事,現在真心變得好 easy。
那麼接下來的一個問題便是:
什麼原理?
近年來,擴散模型(Diffusion Model)在圖像生成領域中蓬勃發展。
例如 OpenAI 的 GLIDE 和 Google 的 Imagen,都采用了基于擴散模型的 pipeline 來獲得高質量的圖像生成結果。
擴散模型分為兩個過程。如下圖所示,右邊是一張正常的圖片。
從右到左的 Forward Diffusion 是一個逐步地将正态分布的噪聲疊加到圖片上的過程,最終得到一張看起來完全是噪聲的圖片。
可以不嚴謹地想象成往一塊牛排上不斷撒椒鹽,直到它看起來完全被椒鹽覆蓋,看不清原來的紋路。
從左到右的 Reverse Diffusion 則是一步步去除噪聲,試圖還原圖片,這就是擴散的生成數據過程。
而擴散模型的訓練就是在學習預測疊加在 xt 上的噪聲,從而得到去噪後 xt-1 的圖片,經過一輪又一輪的去噪,得到最終無噪聲的輸出圖 X0。
最新的 Stable Diffusion 模型,則是在此基礎上結合了一個訓練好的 VAE 模型。
VAE 模型可以對任意圖片進行壓縮再解壓,将圖片使用 VAE 的編碼器壓縮後能得到比原圖小很多的特征編碼,再基于特征編碼訓練擴散模型,最終生成的特征編碼再使用 VAE 的解碼器還原回原始尺寸的大圖,這就是 Stable Diffision 的做法。
這一改進大大減少了圖像生成的時長和占用的 GPU 資源,使得落地成為可能。
為了能夠使用文字控制模型生成的内容,Stable Diffusion 模型使用了預訓練的 CLIP 模型來引導生成結果。
CLIP 模型使用了大量的文字和圖片對訓練,能夠衡量任意圖片和文本之間的相關性,即 CLIP-score。
在前向生成圖片的過程中,模型除了要去噪以外,還需要讓去噪後的圖片和引導詞的 CLIP-score 盡量大。
這樣在不斷生成過程中,輸出結果就會越來越接近我們給定的文字描述。
在上圖中,左下角的小朋友的臉先被疊加了一定程度的噪聲。
之後在去噪過程中,會不斷拉近生成結果圖和 "a woman wearing glasses" 的距離,從而使得生成結果逐漸變成了戴眼鏡的成年女性。
生成圖片依然能夠保留原始圖片的大緻結構,但是細節卻在文字的引導下發生了變化。
Stable Diffusion 技術在 AI 畫畫尤其是二次元領域中展現出非常高的觀賞性和娛樂性,各家紛紛推出基于 Stable Diffusion 的 AI 畫畫平台,如 draft.art、意間 AI 等。
但當時現有的平台在使用上非常不便捷,如果直接生成,大概率生成的質量不會很高,還容易遇到翻車現場:
如果用戶想要生成比較好的結果,就需要對圖片内容進行詳盡的描述,并增加很多提升效果和強化風格的詞,才能得到一個比較理想的效果。
而且界面可調的參數非常多,用戶使用門檻很高;另一方面,對于資源的消耗導緻這些平台通常需要排隊非常久才能拿到一張結果。
因此,QQ 小世界團隊針對這些痛點進行了優化改造,用戶隻需要上傳一張圖片,即可得到好看穩定的生成效果,降低了使用門檻的同時也保證了生成質量。
在技術上,研究人員主要進行了以下幾點優化:
準确的内容生成:通過自研 diffusion 模型對生成語義進行強化,并輔助圖片内容分析提升生成内容對應性;
更快的生成速度:利用超分模型減少 difussion 模型的生成分辨率,并針對圖像 inference 過程進行加速,提升生成速度,節約 GPU 資源;
多樣的風格選擇:針對不同的場景設計了豐富且美觀的風格化效果。
另外,在設計玩法時簡化了用戶的使用流程,為了讓用戶使用門檻更低、體驗更好,研究團隊通過口碑積累達到了峰值 1000% 的二次傳播率。
之前的一些 AI 畫畫平台,如意間 AI,draft art 等,除了上傳圖片,還需要使用一系列的描述主體和風格的引導詞(prompt),有時候還需要調整不同參數,來得到一個理想的結果。
為了降低用戶的使用門檻," 異次元的我 " 對 pipeline 進行了改進:
将輸入模型的提示詞分為兩個部分——圖片主體内容描述和風格描述。
内容描述:為了得到圖片的内容描述,對輸入圖中的信息進行人物性别、年齡、姿勢等屬性的檢測,得到最終盡可能準确詳盡的内容描述詞。
風格描述:為了讓結果更接近二次元,為各種不同場景設計了非常鮮明的二次元風格。根據第一步對圖片内容進行分析後,進一步細分為單人男性、單人女性、多人等不同場景。
結合内容描述和風格描述,研究人員通過對原圖的分析得到最終完整的提示詞輸入網絡,從而能夠穩定生成畫面精緻、風格突出的結果。既保證了生成内容和原圖的對應性,又增添了很多 " 異次元 " 要素,讓用戶更有穿越到二次元的感覺,同時也保證了較高的生成質量。
另一方面,自研 diffusion 模型針對語義理解進行了強化,能夠更準确理解和生成圖片的主體内容,在語義信息理解和圖像生成質量上均有明顯提升。
和近期推出相似玩法的其它平台對比," 異次元的我 " 在内容準确度上會更好,風格也更加二次元化、更美觀:
據了解,原始的 Stable Diffusion 由于需要通過多次叠代生成圖片,在默認配置 A100 機器上生成一張 720p 的圖像耗時約 12s。
如果需要通過提升分辨率和增大叠代步數來提升效果,耗時更是需要多達一分鐘。
而 " 異次元的我 " 針對自研模型采取了一系列的模型壓縮和工程加速的方案,最終一張圖片的生成速度是 1.6s,提升了 7 倍。
……
那麼對于這種 " 快、好、省 " 地變二次元的玩法,你心動了嗎?
按照下面的方法快去試玩吧:
在 QQ 搜索 " 免費畫畫 " 即可參與。
One More Thing
QQ 小世界團隊最初隻是想着在國内搞 " 異次元的我 ",但不知為何被傳到了外網并火了起來,不過期間也是鬧出了一些小烏龍。
而 QQ 小世界團隊得知此消息後,火速優化了算法。現在 " 異次元的我 " 可以兼容各種膚色,生成多元圖片。
△注:掃描圖中二維碼可體驗海外版
對此,海外用戶也對團隊的優化表示了肯定:
看來,不僅是人類需要不斷學習進步,AI 亦是如此。