機器之心報道
編輯:XW
得到一張好看的照片越來越容易了。
假期出遊,肯定少不了拍照留念。不過,大部分在景區拍攝的照片或多或少都有些遺憾,背景裏不是多了些什麽,就是少了些什麽。
獲得一張「完美」的圖像,是 CV 研究人員長期以來努力的目标之一。日前,Google Research 和康奈爾大學的研究人員合作,提出了一種「真實的圖像補全」(Authentic Image Completion)技術——用于圖像補全的生成模型 RealFill。
RealFill 模型的優勢是可以使用少量的場景參考圖像進行個性化設置,而這些參考圖像無須與目标圖像對齊,甚至可以在視角、光線條件、相機光圈或圖像風格等方面有極大的差異。一旦完成個性化設置,RealFill 就能夠以忠實于原始場景的方式,用視覺上引人入勝的内容來補全目标圖像。
論文鏈接:https://arxiv.org/abs/2309.16668
項目頁面:https://realfill.github.io/
補畫(inpainting)和擴畫(outpainting)模型是能夠在圖像的未知區域生成高質量、合理的圖像内容的技術,但這些模型生成的内容必然是不真實的,因爲這些模型在真實場景的上下文信息方面存在不足。相比之下,RealFill 能夠生成「應該」出現在那裏的内容,從而使圖像補全的結果更爲真實。
作者在論文中指出,他們定義了一個新的圖像補全問題——「真實圖像補全」(Authentic Image Completion)。不同于傳統的生成型圖像修複(替代缺失區域的内容可能與原始場景不一緻),真實圖像補全的目标是使補全的内容盡可能忠實于原始場景,用「應該出現在那裏」的内容來補全目标圖像,而不是用「可能在那裏」的内容。
作者表示,RealFill 是首個通過在過程中添加更多的條件(即添加參考圖像)來擴展生成型圖像修複模型表達力的方法。
在一個涵蓋了一系列多樣化且具有挑戰性的場景的新的圖像補全基準測試中,RealFill 的表現大大超過了現有的方法。
方法
RealFill 的目标是在盡可能保持真實性的前提下,使用少量的參考圖像來補全給定目标圖像的缺失部分。具體說,給定最多 5 張參考圖像,和一張大緻捕捉到相同場景(但布局或外觀可能不同)的目标圖像。
對于給定的場景,研究人員首先通過在參考圖像和目标圖像上微調一個預訓練的 inpainting 擴散模型,創建一個個性化的生成模型。這個微調過程被設計成讓微調後的模型不僅保持良好的圖像先驗,還能學習輸入圖像中的場景内容、光照和風格。然後,使用這個微調過的模型,通過标準的擴散采樣過程來填充目标圖像中的缺失區域。
值得注意的是,爲了實際的應用價值,該模型特别關注更具挑戰性、無約束的情況,即目标圖像和參考圖像可能有非常不同的視點、環境條件、相機光圈、圖像風格,甚至包括移動的對象。
實驗結果
根據左側的參考圖像,RealFill 能夠對右側的目标圖像進行擴展(uncrop)或修複(inpaint),生成的結果不僅視覺上吸引人,而且與參考圖像保持一緻,即使參考圖像和目标圖像在視點、光圈、光照、圖像風格和物體運動等方面存在較大差異。
RealFill 模型的輸出效果。給定左側的參考圖像,RealFill 能夠擴畫出對應的右側目标圖像。白色框内的區域被提供給網絡作爲已知的像素,而白色框外的區域都是生成的。結果顯示,即使參考圖像和目标圖像之間存在包括視點、光圈、光照、圖像風格和物體運動等巨大差異,RealFill 也能生成高質量且忠實于參考圖像的圖像。來源:論文
對照實驗
研究人員比較了 RealFill 模型和其他的基準方法。相比之下,RealFill 生成的結果質量高,在場景保真度和與參考圖像的一緻性方面,RealFill 的表現更好。
Paint-by-Example 無法實現高度的場景保真,因爲它依賴于 CLIP 嵌入,而 CLIP 嵌入隻能捕獲高級語義信息。
Stable Diffusion Inpainting 雖然可以産生看似合理的結果,但由于 prompt 的表達能力有限,所以最終生成結果與參考圖像并不一緻。
RealFill 與其他兩種基線方法的比較。覆蓋了一層透明白色掩碼的區域是目标圖像未修改的部分。來源:realfill.github.io
局限
研究人員也讨論了 RealFill 模型的一些潛在的問題和限制,包括處理速度、對視點變化的處理能力,以及對基礎模型具有挑戰性的情況的處理能力。具體說:
RealFill 需要對輸入圖像進行基于梯度的微調過程,這使得它的運行速度相對較慢。
當參考圖像和目标圖像之間的視點變化非常大時,RealFill 往往無法恢複 3D 場景,特别是當隻有一張參考圖像的時候。
由于 RealFill 主要依賴于從基礎的預訓練模型繼承的圖像先驗,因此它無法處理那些對基礎模型來說具有挑戰性的情況,例如 stable diffusion 模型無法處理好文本。
最後,作者對合作者表示了感謝:
我們要感謝 Rundi Wu、Qianqian Wang、Viraj Shah、Ethan Weber、Zhengqi Li、Kyle Genova、Boyang Deng、Maya Goldenberg、Noah Snavely、Ben Poole、Ben Mildenhall、Alex Rav-Acha、Pratul Srinivasan、Dor Verbin 和 Jon Barron 的寶貴讨論和反饋,同時也感謝 Zeya Peng、Rundi Wu、Shan Nan 對評估數據集的貢獻。我們特别感謝 Jason Baldridge、Kihyuk Sohn、Kathy Meier-Hellstern 和 Nicole Brichtova 對項目的反饋和支持。
了解更多可閱讀原論文并訪問項目主頁。
© THE END
轉載請聯系本公衆号獲得授權
投稿或尋求報道:[email protected]