CV 大佬朱俊彥的新論文,讓設計師們感覺危了。
事情是這樣的:
量子位在微博上搬運了朱俊彥團隊的新成果,一個能将2D 草圖一鍵變成 3D 模型的新算法,卻意外引發設計圈盆友們的熱烈轉發讨論。
配文全是 " 沃日 "、"???" ……
簡單來說,這個模型能讓非常粗糙的簡筆畫,一鍵變成逼真 3D 模型。
還支持實時編輯,不滿意的地方擦掉重畫,立馬生成一個新的:
要知道之前的 " 圖轉圖 " 模型,基本都是停留在 2D 層面,這回直接變 3D 真是一個突破。
也确實是生産力利器。
但沒想到,是設計圈先感到了危機。有圈内博主就覺得又要被 AI 搶飯碗了,随後也有很多人跟轉了這一條。
所以論文成果到底說了啥?一起來看。
可從任意角度實時編輯
現在有很多圖 - 圖的轉換模型,但基本上都是 2D-2D。
這是因爲從 2D 到 3D,在訓練和測試過程中都有很大挑戰。
訓練方面,想要把 2D 輸入圖像和 3D 輸出圖像配對,需要龐大數據集,成本會很高。
測試方面,爲了得到不同角度的 3D 模型,需要輸入圖像的多個視角,但是二者之間可能存在不一緻的情況,導緻生成效果不好。
爲了解決這些問題,朱俊彥團隊提出了使用3D 神經場景表示(3D neural scene representations)的條件生成模型。
它隻需要給定一個 2D 标簽圖(如語義分割圖和勾線圖),能爲每個 3D 點匹配标簽、顔色和密度等。實現在渲染圖像的同時,像素對齊标簽圖像。
通過構建一個交互式系統,用戶能在任何視角修改标簽圖,并生成與之相對的輸出。
爲了實現跨視圖編輯,需要将額外的語音信息編碼爲 3D 的,然後通過圖像重建和對抗損失(adversarial losses)的 2D 監督,來學習上述 3D 表示。
重建損失可以确保 2D 用戶輸入和相應的 3D 内容對齊,像素對齊條件鑒别器( pixel-alignedconditional discriminator)也進一步促使外觀和标簽對應合理,并在新視角時也保持像素對齊。
最後,方法還提出了跨視圖一緻性損失,強制潛碼在不同視點保持一緻。
和不同模型對比顯示,pix2pix-3D 能在保持多視角一緻的情況下,生成高質量結果。
消融實驗結果同樣顯示,該方法的生成結果能更好和輸入圖像對齊。
不過研究團隊也提出了方法的一些局限性。
第一,目前它還隻能針對于單個對象;
第二,模型在訓練過程中,需要與每個訓練圖像關聯相機姿态(camera pose),推理時不需要。如果能不依賴于相機姿态,可以進一步擴大模型的使用範圍。
朱俊彥團隊出品
該論文成果來自朱俊彥團隊。
朱俊彥,現任 CMU 計算機科學學院助理教授,是 AI 領域知名的青年學者。
2008 年,朱俊彥進入清華大學計算機科學系,學習計算機科學專業。在同專業 140 人中,朱俊彥排名第 2。
2012 年清華本科畢業後,朱俊彥奔赴美國,在 CMU 和 UC 伯克利經過 5 年學習,獲得了 UC 伯克利電氣工程與計算機科學系的博士學位,師從 Alexei Efros。
其博士畢業畢業論文 Learning to Generate Images,獲得了計算機圖形學頂會 ACM SIGGRAPH 2018"傑出博士論文獎"。
博士畢業後,朱俊彥來到 MIT 計算機與人工智能實驗室(CSAIL),成爲一名博士後研究員。2020 年秋季,他回到曾經的母校 CMU(卡内基梅隆大學),擔任助理教授一職。
曾提出 CycleGAN、GauGAN 等明星模型。
△GauGAN 支持塗鴉變風景畫
△vid2vid 支持從語義圖生成真實場景
論文一作爲Kangle Deng。他現在是卡耐基梅隆大學機器人學院的一名在讀博士。
2020 年從北京大學本科畢業。他以第一作者身份發表的論文,曾被 CVPR 2022、ICLR 2021 接收。
論文地址:
https://arxiv.org/abs/2302.08509