無需 GPU 即可部署,0.5 秒就能通過單張圖片生成 3D 模型。
大語言模型風暴再起的一晚,3D 生成領域也有新開源模型引發關注。
二月底,Stability AI 悄然換将,新任 CTO Christian 是圖形學和機器視覺大佬。上任不到五天,立刻官宣爲開源社區帶來重磅炸彈:和華人團隊 VAST 聯合推出 3D 生成模型TripoSR。
隻需短短的 0.5 秒,TripoSR 就能把單張圖片轉化爲一個幾何結構完整、材質紋理清晰的 3D 模型,無需任何 prompt 和專業知識,甚至不需要依賴 GPU。
△圖源 Stability AI 官網
可以看出,不管是人物角色、家裝建築、食物擺件,TripoSR 都能理解和還原。
△圖源 TripoSR 技術報告
TripoSR 的靈感來源于 2023 年 11 月 Adobe 提出的 LRM。
和 Sora 作爲視頻生成模型使用的 Transformer 架構相似,TripoSR 和 LRM 都基于 Transformer 架構。
這種方式将圖像生成 3D 模型的任務巧妙地理解爲一場跨維度的語言翻譯。想象一下,每一張輸入的圖像都是一種獨特的語言,而模型的任務,就是将這種圖像語言翻譯成另一種三維的表達—— 3D 模型語言。
在這場翻譯中,圖像語言的 " 詞彙 " 由輸入圖像精心切割成的一塊塊小方塊,類比于視頻語言的 " 詞彙 " 是 patch,而 3D 模型語言的 " 詞彙 " 則是由 " 三平面(triplane)" 構成的三維空間中的小方塊。這個方法的核心就在于它能夠将這些圖像語言的 " 詞彙 " 一一對應地轉化爲 3D 模型語言的 " 詞彙 ",從而将二維的圖像轉化爲三維的模型。
在 transformer 架構的強力推動下,LRM 在超過百萬級别的公開三維數據集上接受了訓練,這标志着它與以往那些僅限于特定類别的研究工作劃清了界限。這種對任意用戶輸入的廣泛适應性和超高的運行效率赢得了贊譽在學術界和工業界掀起了一陣熱潮。
盡管如此,LRM 的代碼和模型并未對外開放,加之其訓練成本之高——需要 128 塊 A100 GPU 連續運行一周——這使得許多資源有限的研究團隊望而卻步,從而在一定程度上限制了這項技術向更廣泛領域的推廣。
或許還有人有印象 Stability AI 此前開源的 3D 項目 Stable Zero123。
這個項目基于另一個受到廣泛關注的開源項目 threestudio,盡管這個集成嘗試取得了不少進展,但由于其依賴的技術(比如 score distillation sampling)需要較長的優化和計算時間,使得生成一個 3D 模型既緩慢又資源消耗巨大,這個問題仍未能被充分解決。
直至 TripoSR 的出現,學術界和開源界一直缺少一個開放、快速、且具備強大泛化能力的 3D 生成基礎模型和框架。
該模型基于 LRM 的原始算法,通過精細篩選和渲染的 Objaverse 數據集子集以及一系列的模型和訓練改進,顯著提高了從有限訓練數據中泛化的能力,同時也增強了 3D 重建的保真度。
△與其他算法對比
因此,可以說 Tripo AI 和 Stability AI 聯合推出的首個 LRM 高質量開源實現—— TripoSR 極大地填補了 3D 生成式人工智能領域的一個關鍵空白。
△性能表現:F-Score(越高越好)與推理時間(越低越好)的關系
作爲 Stable Diffusion 背後公司,Stability AI 無需多做介紹,那麽此番與 Stability AI 攜手的 Tripo AI 又是何許人也?
根據公開信息,Tripo AI 背後是一個叫作 VAST AI Research 的新銳 3D 研究機構。
自 2023 年底相繼開源了 Wonder3D、CSD、TGS 等工作的代碼和權重,獲得了開源社區的廣泛好評。
Tripo 是 VAST 在 2023 年 12 月推出的通用 3D 生成模型。能實現 8 秒内通過文字或圖片生成 3D 網格模型,并通過 5 分鍾進行精細化生成,生成模型質量在幾何和材質層面都接近手工水平。
根據其披露的運營動态,目前已上線模型生成之外,風格化、自動骨骼綁定等更多 3D 生成相關功能。
你覺得 2024 年會是 3D 生成領域爆發的一年嗎?
參考鏈接:
[ 1 ] TripoSR 模型代碼:https://github.com/VAST-AI-Research/TripoSR
[ 2 ] TripoSR 模型權重:https://huggingface.co/stabilityai/TripoSR
[ 3 ] TripoSR Demo:https://huggingface.co/spaces/stabilityai/TripoSR
[ 4 ] https://stability.ai/news/triposr-3d-generation
* 本文系量子位獲授權刊載,觀點僅爲作者所有。