"
AIGC 是否會取代人類?
"
作者|Chengxi
編輯|蔓蔓周
過去 18 個月,AI 内容生成(AIGC)是無疑是矽谷科技創投圈内最火爆、最熱門的話題。
DALL-E(2021 年 1 月推出)
Midjourney(2022 年 7 月推出)
Stable Diffusion(2022 年 8 月推出)
這類 2D 生成式工具,能夠在短短幾秒内将文本提示(prompt)生成藝術風格的圖片。随着這類 2D AIGC 工具的演化和進步,藝術家、設計師和遊戲工作室的創作工作流正在被迅速颠覆革新。
AIGC 的下一個突破口在哪?不少投資者和領域資深人士都給出了預測 — 3D 數據生成。
我們注意到 3D AIGC 正在經曆着 2D AIGC 曾經發展過的階段。這篇文章中,我們将更深入地讨論 AIGC 在 3D 數據領域的新突破,以及展望生成式 AI 工具如何提高 3D 數據生成的效率和創新。
01
回顧 2D AIGC 的高速發展
2D AIGC 的發展可以簡單概括爲以下三個發展階段:
第一階段:智能圖像編輯
早在 2014 年,随着生成對抗網絡(GAN,典型後續工作 StyleGAN)和變分自編碼器(VAE,典型後續工作 VQVAE,alignDRAW)的提出,AI 模型便開始被廣泛運用到 2D 圖片的智能生成與編輯中。早期的 AI 模型主要被用于學習一些相對簡單的圖像分布或者進行一些圖像編輯,常見的應用包括:人臉生成、圖像風格遷移、圖像超分辨率、圖像補全和可控圖像編輯。
但早期的圖像生成 / 編輯網絡與文本的多模态交互非常有限。此外,GAN 網絡通常較難訓練,常遇到模式坍塌(mode collapse)和不穩定等問題,生成的數據通常多樣性較差,模型容量也決定了可利用數據規模的上限;VAE 則常遇到生成的圖像模糊等問題。
第二階段:文生圖模型的飛躍
随着擴散生成(diffusion)技術的突破、大規模多模态數據集(如 LAION 數據集)和多模态表征模型(如 OpenAI 發布的 CLIP 模型)的出現與發展,2D 圖像生成領域在 2021 年前後取得重要進展。圖像生成模型開始與文本進行深入的交互,大規模文生圖模型驚豔登場。
當 OpenAI 在 2021 年初發布 DALL-E 時,AIGC 技術開始真正顯現出巨大的商業潛力。DALL-E 可以從任意的文本提示中生成真實和複雜的圖像,并且成功率大大提高。一年之内,大量文生圖模型迅速跟進,包括 DALL-E 2(于 2022 年 4 月升級)和 Imagen(谷歌于 2022 年 5 月發布)。雖然這些技術當時還無法高效幫助藝術創作者産出能夠直接投入生産的内容,但它們已經吸引了公衆的注意,激發了藝術家、設計師和遊戲工作室的創造力和生産潛力。
第三階段:從驚豔到生産力
随着技術細節上的完善和工程優化上的叠代,2D AIGC 得到迅猛發展。到 2022 年下半年,Midjourney、Stable Diffusion 等模型已成爲了廣受歡迎的 AIGC 工具。他們通過大規模的訓練數據集的驅動,使得 AIGC 技術在現實世界應用中的性能已經讓媒體、廣告和遊戲行業的早期采用者受益。此外,大模型微調技術的出現與發展(如 ControlNet 和 LoRA)也使得人們能夠根據自己的實際需求和少量訓練數據來 " 自定義 " 調整、擴展 AI 大模型,更好地适應不同的具體應用(如二次元風格化、logo 生成、二維碼生成等)。
現在,使用 AIGC 工具進行創意和原型設計很多情況下隻需幾小時甚至更短,而不是過去需要的幾天或幾周。雖然大多數專業的圖形設計師仍然會修改或重新創建 AI 生成的草圖,但個人博客或廣告直接使用 AI 生成的圖像的情況越來越普遍。
alignDRAW, DALL-E 2, 和 Midjourney 文本轉圖像的不同效果。
除了文本轉圖像,2D AIGC 持續有更多的最新發展。例如,Midjourney 和其他創業公司如 Runway 和 Phenaki 正在開發文本到視頻的功能。此外,Zero-1-to-3 已經提出了一種從物體的單一 2D 圖像生成其在不同視角下對應圖片的方法。
由于遊戲和機器人産業對 3D 數據的需求不斷增長,目前關于 AIGC 的前沿研究正在逐漸向 3D 數據生成轉移。我們預計 3D AIGC 會有類似的發展模式。
02
3D AIGC 的 "DALL-E" 時刻
近期在 3D 領域的種種技術突破告訴我們,3D AIGC 的 "DALL-E" 時刻正在到來!
從 2021 年末的 DreamFields 到 2022 年下半年的 DreamFusion 和 Magic3D,再到今年五月的 ProlificDreamer,得益于多模态領域和文生圖模型的發展,學術界文生 3D 模型也得到了不少突破。不少方法都能夠從輸入文本生成高質量的 3D 模型。
然而這些早期探索大多數需要在生成每一個 3D 模型時,都從頭優化一個 3D 表示,從而使得 3D 表示對應的各個 2D 視角都符合輸入和先驗模型的期待。由于這樣的優化通常需要成千上萬次叠代,因此通常非常耗時。例如,在 Magic3D 中生成單個 3D 網格模型可能需要長達 40 分鍾,ProlificDreamer 則需要數小時。此外,3D 生成的一個巨大挑戰便是 3D 模型必須具備從不同角度看物體形狀的一緻性。現有的 3D AIGC 方法常遇到雅努斯問題(Janus Problem),即 AI 生成的 3D 對象有多個頭或者多個面。
由于 ProlificDreamer 缺乏 3D 形狀一緻性而出現的雅努斯問題。左邊是一隻看似正常的藍鳥的正面視圖。右邊是一幅令人困惑的圖像,描繪了一隻有雙面的鳥。
但另外一方面,一些團隊正在嘗試突破現有的基于優化的生成範式,通過單次前向預測的技術路線來生成 3D 模型,這大大提高了 3D 生成速度和準确度。這些方法包括 Point-E 和 Shap-E(分别于 2022 年和 2023 年由 OpenAI 發布)和 One-2 – 3 – 45(2023 年由加州大學聖地亞哥分校發布)。特别值得注意的是,最近一個月發布的 One-2 – 3 – 45 能夠在僅 45 秒的時間内從 2D 圖像生成高質量和具備一緻性的 3D 網格!
對單圖像到 3D 網格方法的比較分析。從左到右,我們可以觀察到,處理時間從超過一個小時大幅度減少到不到一分鍾。Point-E、Shap-E 和 One-2 – 3 – 45 在速度和準确性上都有出色表現。
這些 3D AIGC 領域最新的技術突破,不僅大大提高了生成速度和質量,同時讓用戶的輸入也變得更加靈活。用戶既可以通過文本提示進行輸入,也可以通過信息量更加豐富的單張 2D 圖像來生成想要的 3D 模型。這大大擴展了 3D AIGC 在商業應用方面的可能性。
03
AI 革新 3D 生産過程
首先,讓我們了解一下傳統 3D 設計師創建 3D 模型,所需要經曆的工作流程:
1. 概念草圖:概念藝術設計師根據客戶輸入和視覺參考進行頭腦風暴和構思所需的模型。
2.3D 原型制作:模型設計師使用專業軟件創建模型的基本形狀,并根據客戶反饋進行叠代。
3. 模型細化:将細節、顔色、紋理和動畫屬性(如綁定、照明等)添加到粗糙的 3D 模型中。
4. 模型最終定型:設計師使用圖像編輯軟件增強最終的渲染效果,調整顔色,添加效果,或進行元素合成。
這個過程通常需要幾周的時間,如果涉及到動畫,甚至可能需要更長。然而,如果有 AI 的幫助,上述每個步驟都可能會更快。
1. 強大的多視圖圖像生成器(例如,基于 Stable Diffusion 和 Midjourney 的 Zero-1 – to – 3)有助于進行創意頭腦風暴,并生成多視圖圖像草圖。
2. 文本到 3D 或圖像到 3D 技術(例如,One-2 – 3 – 45 或 Shap-E)可以在幾分鍾内生成多個 3D 原型,爲設計師提供了廣泛的選擇空間。
3. 利用 3D 模型優化(例如,Magic 3D 或 ProlificDreamer),選定的原型可以在幾小時内自動進行精煉。
4. 一旦精煉的模型準備好,3D 設計師就可以進一步設計并完成高保真模型。
傳統與 AI 驅動的 3D 生産工作流程對比
04
3D AIGC 是否會取代人類?
我們的結論是,暫時不會。人仍然是 3D AIGC 環節中不可缺失的一環。
盡管以上提到的 3D 模型生成技術,能在機器人技術、自動駕駛和 3D 遊戲中有許多應用,然而目前的生産流程仍然不能滿足廣泛的應用。
爲此,矽兔君采訪了來自加州大學聖叠戈分校的蘇昊教授,他是 3D 深度學習(3D Deep Learning)和具身人工智能(Embodied AI)領域的領軍專家,也是 One-2 – 3 – 45 模型的作者之一。蘇昊教授認爲,目前 3D 生成模型的主要瓶頸是缺乏大量高質量的 3D 數據集。目前常用的 3D 數據集如 ShapeNet(約 52K 3D 網格)或 Objaverse(約 800K 3D 模型)包含的模型數量和細節質量都有待提升。尤其是比起 2D 領域的大數據集(例如,LAION-5B),它們的數據量仍然遠不夠來訓練 3D 大模型。
蘇昊教授曾師從幾何計算的先驅、美國三院院士Leonidas Guibas 教授,并曾作爲早期貢獻者參與了李飛飛教授領導的 ImageNet 項目。受到他們的啓發,蘇昊教授強調廣泛的 3D 數據集在推進技術方面的關鍵作用,爲 3D 深度學習領域的出現和繁榮做出了奠基性工作。
此外,3D 模型遠比 2D 圖像的複雜很多,例如 :
1. 部件結構:遊戲或數字孿生應用需要 3D 對象的結構化部件(例如,PartNet),而不是單一的 3D 網格;
2. 關節和綁定:與 3D 對象互動的關鍵屬性;
3. 紋理和材料:例如反光率、表面摩擦系數、密度分布、楊氏模量等支持交互的關鍵性質;
4. 操作和操控:讓設計師能夠對 3D 模型進行更有效地交互和操縱。
而以上幾點,就是人類專業知識能夠繼續發揮重要作用的地方。
蘇昊教授認爲,在未來,AI 驅動的 3D 數據生成應具有以下特性:
1. 支持生成支撐交互性應用的 3D 模型,這種交互既包括物體與物體的物理交互(如碰撞),也包括人與物體的交互(物理與非物理的交互方式),使得 3D 數據在遊戲、元宇宙、物理仿真等場景下能夠被廣泛應用;
2. 支持 AI 輔助的 3D 内容生成,使得建模的生産效率更高;
3. 支持 Human-in-the-loop 的創作過程,利用人類藝術天賦提升生成數據的質量,從而進一步提升建模性能,形成閉環的數據飛輪效應。
類似于過去 18 個月來像 DALL-E 和 ChatGPT 這樣的技術所取得的驚人發展,我們堅信在 3D AIGC 領域即将發生,其創新和應用極有可能會超過我們的預期,矽兔君會持續深入探索和輸出。
文末互動:
你認爲 AIGC 會對人類産生哪些深遠影響?
評論區留言告訴我們哦~
别忘了點關注,不迷路啊。