SIGGRAPH Asia 2024：傳統與創新并存，3D 生成與具身智能熱度上升

作者丨朱可軒

編輯丨陳彩娴

今日，曆時四天（12.3-12.6）的第十七屆 SIGGRAPH Asia 在東京正式閉幕，本屆圍繞的主題爲「Curious Minds」，無論是參與注冊的人數還是論文投稿數都創下了曆史新高。

華人學者在本次大會上的表現依舊十分亮眼，在會場，幾乎大多數論文背後都有華人的身影。

當前，在計算機視覺學界主要有新興派和傳統派兩類研究者，前者的目光主要聚焦在具身智能和 3D 生成方向，而後者則依舊專注于解決幾何建模和幾何處理中的細節問題。

新興派的論文成果正處噴湧期，但今年的論文也并非全然被 AI 浪潮席卷，老派研究依舊占據了一席之地。

除了學術論文外，今年的展位也依舊人頭濟濟。據 AI 科技評論觀察，和往年相比，今年有關動作捕捉的展示項目占大頭，同時，以 VAST、影眸、元象爲代表的 3D AIGC 大陸廠商也參與了展出。

從産業化的角度，3D 當前确實還不比多模态大模型的應用面那麽廣泛。

但深圳大學計算機與軟件學院教授胡瑞珍十分看好這一方向的發展，她告訴 AI 科技評論，「數字媒體一直在更新叠代，一開始是音頻，然後變成一些二維的圖像視頻，不遠的将來數字媒體的呈現形式就會變化到三維了，就像體積視頻、元宇宙，包括李飛飛提到的空間智能，都在強調 3D 内容和三維感知。」

現階段，3D 還是一條相對而言沒有那麽擁擠的賽道，這也恰好爲學術和創業提供了蓬勃發展的空間和機會。

在會場，AI 科技評論和多位從業者進行了交談，并在此之中得到了一些結論：

3D 生成方向有關幾何和紋理模型的技術成果正在快速更新中，但其中有關到底走端到端還是多步叠代的路徑業内稍有分歧。

技術還未走向完全成熟，所以 3D AIGC 的應用落地也還尚處早期，用戶對于三維的認知和需求也都有待提升，目前在與日常生活較爲貼近的遊戲、美術設計和電商等方向應用較多，與前者相比，工業界落地相對已較成熟。

關于 Animation 的技術也還需突破，當前在骨骼方面缺乏比較 Scale 的模型，這一方向與 AI 緊密結合後和空間智能會比較接近。

模型技術創新持更中

近年來，在幾何、紋理方向一直在持續出現有關大模型的前沿技術。海外包括 Meta 的 3D Gen、Adobe 的 LRM 、Google 的 DreamFusion 等，國内目前比較有代表性的主要有 CLAY、TEXGen 等。

在幾何方面，影眸科技在今年的 SIGGRAPH 上被提名了榮譽獎的 3D 原生 Diffusion Transformer 生成式大模型 CLAY，也解決了 2D 升維法所存在的問題，實現直接從 3D 數據集訓練模型的突破。

CLAY 的進階版本 Rodin Gen-1 也在今年 6 月正式上線，并在本屆大會上進行了展出。

VAST 所采用的是一個基于 rectified flow 的大規模形狀生成模型，據了解，這種模型能夠在采樣步數更少的情況下精度更高，同時訓練也會更穩定。

在紋理生成這部分，此前比較主流的操作方式主要有兩種——

第一是借助已經訓好的圖像生成模型去做紋理貼圖，這其中包括 Google 的 DreamFusion 開創的所謂「2D 升 3D」的路徑，以及常用的通過逐步的多個單視角的紋理生成和反投影進行整個模型的紋理生成。

但這種方式的缺點在于，由于生成依賴于圖像模型而不具有整體的三維感知能力，AI 無法判斷各個視角的整體一緻性，所以生成内容可能存在諸如一個人正反兩面都有人頭的問題，當前學術界也在尋求突破。

第二是一種依靠圖像數據做訓練監督的 regression 的 model，使用一個 texture field 做紋理表示，但這種方式沒辦法做現在流行的基于原生數據訓練的 diffusion model，進行多步叠代，最終呈現出來的細節效果不太好，人眼所看不到的立體圖像背面可能會比較模糊。

區别于前述兩種操作，此次 VAST 和港大、清華團隊獲得最佳論文提名獎的論文《TEXGen: a Generative Diffusion Model for Mesh Textures》帶來了自己的思考。

論文鏈接：https://arxiv.org/pdf/2411.14740

AI 科技評論在會場聯系到了該篇論文的一作餘鑫，他當前在香港大學就讀博三，師從齊曉娟。據他介紹，「我們做的模型不需要依賴于 2D 升 3D 的方式，直接訓練一個原生的 diffusion model 輸出 3D 紋理内容，這種原生的 3D 模型能一次性生成整個物體的紋理。」

這塊做下來有幾處難點問題，首要的是數據，因爲紋理涉及到一些表現形式，而不同的表現形式所獲得的數據多少其實是不同的，另外網絡架構和算力也存在難點問題。

實際上，餘鑫也并非從一開始就做紋理模型，在 stable diffusion 出來之前，他就嘗試過用 latent diffusion 做幾何模型，後來出于多種因素考慮，他才逐漸開始轉向聚焦紋理模型。

在他看來，紋理比幾何更複雜、變化更大，并且是一種表面屬性，當前的神經網絡也很難去處理紋理數據，也正是因爲困難相比幾何更大，這塊賽道當前還鮮有人切入。

「我之前也做過利用 2D 升維的 3D 生成工作，這種方式的确可以在某些程度上取得驚人的短期視覺效果。但他終究不是一個通過 3D data 學習的原生模型，存在各種 bias，所以長期來講，我覺得有還是要走通過 3D 數據訓練的 feed-forward 路線。」餘鑫說道。

之後在研究過程中，他也曾考慮過類似 Meta 3D Gen 的路徑，将 3D 紋理貼圖作爲兩個階段分别處理，即先多視角生成再訓練一個模型進行補全，并做出了短期效果。但最終認爲這種做法其實存在一定上限，如若要追求長遠的效果，還需要嘗試新的方案。

此外，對于多個階段的生成方式，他也曾考慮過另一種方式，主要是用到紋理的兩種表現形式，并都支持直接訓練 diffusion model。（此文章即 Point-UV Diffusion，發表在 ICCV 2023 Oral。）

「之前我的想法是分兩個階段去 train 兩個 diffusion model，後來我開始思考 end to end 把兩個階段的優勢都發揮出來的可能性，感覺是可以實現的，所以也針對這一點提出了混合 2D-3D 去噪模塊。」餘鑫說道。

另外，值得一提的是，影眸科技 CTO 張啓煊也透露，幾何的絕對質量和貼圖的絕對精度也将是影眸團隊接下來重點會突破的方向，明年 1 月會正式官宣新的突破性進展，并争取在年底上線新版本。

當前，在 3D AIGC 方向的發展與圖像、視頻這類二維内容生成式模型在多樣性、可編輯性等方面、個性化定制等方面還有部分差距，這也是學界和業界需要合力去攻克的問題。

在胡瑞珍看來，「未來到底是走 end to end 還是 Multi step 的路徑解決問題，現階段還不好判斷，因爲三維數據确實沒有二維多。」

3D 生成應用已經起步

本次大會，AI 科技評論在現場聽到最多的關鍵詞大概當屬「數據」。有業者認爲，數據對于 3D 生成平台而言是決定所做産品差異性的關鍵問題，甚至在現階段的重要性大于模型。

VAST 目前和同行相比的優勢就在于大規模高質量的私有數據集，據 VAST 首席科學家曹炎培介紹，「我們目前已經有 2000 萬高質量 3D 訓練數據，而訓練開源模型或者沒有私有數據的團隊可能隻能用到幾十萬數據，這樣一兩個量級的差别會導緻最終 3D AI 生成模型結果精度、泛化性、多樣性、可控性等方面的差異。」

張啓煊同樣強調了數據的重要性，「對于 3D 生成來講，其實數據的絕對數量不重要，質量非常重要。」高質量數據需要足夠細節、平整，達到 production ready 的質量，真正用在最後實際生産裏。

當前，「開放的 3D 數據存在大量過于簡單的 model，還會有很多點雲和低質量的 model，這些其實都應該剔除掉，所以我們也花了大量的時間在數據修複和數據清洗上，以此來提高整體質量。」張啓煊強調。

影眸展位

除了數據以外，3D Tokenizer 也是當前在技術上較爲有挑戰性的部分，還有很大的進化空間。

目前情況來看，文字 Tokenizer 實則已經發展到比較成熟的階段，圖像、視頻方面其實也已經有了 Sora 在前打樣，但 3D 的研究成果還在持續更新中。

應用場景目前在 3D 生成領域也還不夠明晰，在業内看來，如若隻是服務遊戲、美術等方面，最終的盤子不夠大。AI 科技評論在現場走訪到的幾家廠商，現階段基本集中于遊戲、設計、3D 打印、電商等落地場景。

VAST 面向的場景之一是幫助遊戲、動畫行業降本增效，降低此類内容的制作成本和時間，其二則是泛定制化、泛工業的 3D 打印，除此之外、也是未來最關注的場景，則爲需要實時低成本 3D 内容創作的 UGC（user-generated content）場景。

「比如元宇宙，以及一些做開放世界的客戶，其實很希望引入一些 UGC 玩法，有了 3D 内容生成平台以後他們能夠解決海量 3D 資産構建的問題，并且設計出在沒有實時 3D 生成技術前無法設想的玩法。」曹炎培告訴 AI 科技評論。

「我們在今年 SIGGRAPH Asia 上參與的另一個環節 Real-Time Live! 中所展示的 Tripo Doodle，也正是如何利用 AI 3D 技術讓普通人能夠從簡筆畫實時生成自己想要的 3D 模型。」

在他看來，「從邏輯和技術發展趨勢上來講，3D 内容平台是未來一定會出現的應用方向，所以我們未來的發展方向正是構建這樣一個平台，而現在所做的 AI 3D 工具是一個必經階段，因爲構建内容平台首先需要易上手、低成本的内容創作工具。」

VAST 展位

影眸所切入的也有類似賽道，但和 VAST 的主要區别在于，前者所做的工具會更爲專業。在今年 8 月的 SIGGRAPH 上，影眸團隊也在 Real-time Live 中也展示了其特有的 3D ControlNet 功能。

「比起讓 AI 像個随機的老虎機，我們更希望讓藝術家可以自己掌控生成的環節。」張啓煊分享道。

除此之外，電商也是 3D 生成當前的一塊落地場景，影眸目前所做的主要是給家具、工藝品商家提供 3D 模型。

不過，值得關注的是，現階段，服裝類暫時已不被各家納入應用範疇，此前，其實虛拟試衣一直分爲 3D 和 2D 兩派。

去年，影眸曾考慮過服裝生成的市場，其發表的《DressCode: Autoregressively Sewing and Generating Garments From Text Guidance》也在 SIGGRAPH 主會拿過榮譽提名獎，主要介紹了一種專爲 3D 服裝設計的生成式 AI 框架 DressCode。

但在今年的會場中，張啓煊告訴 AI 科技評論，「現在大家想做虛拟試衣，基本上會跳過 3D 這個步驟，直接進行視頻生成，所以我們這方面先擱置了，選擇 All in 物品級的 3D 生成上。」

「結合 3D 生成做虛拟試衣其實是需要進行布料模拟的，而這一步十分消耗算力，但視頻生成其實所需要的算力相對會更少，而在其他場景裏的算力消耗程度則相反。」他進一步介紹其觀察。

曹炎培也認爲虛拟換裝方向現階段結合圖像、視頻生成模型相較純 3D 方案會是更優解。在他看來，視頻生成模型在和諧度、動态觀感等方面很有優勢，而純 3D 方案則有一些難以解決的問題：

「首先，所需要的 3D 衣服模型許多小的網店商家肯定沒有，他們隻有實體服裝，但如若通過 3D 掃描等數字化方式也較難得到準确、高質量的服飾模型。在此之後，如果要實現虛拟試穿，在純 3D 管線中，還涉及如何獲取試衣者的高還原度 3D 數字模型、如何進行高質量物理解算與渲染獲得試穿效果等難題。」

産業化的落地對比學術界必然會存在些許滞後性，而目前 3D 這塊領域的技術還在更新叠代中，隻有當技術走向成熟以後，應用落地才能随之提速。

前文所提到的基本是與日常生活更貼近的場景，用戶或許對于三維的需求暫時不太旺盛。但胡瑞珍向 AI 科技評論分享了她的觀察，在她的視角中，實際上，現在在工業界範圍内，3D 的落地已經相當廣泛。

「類似智能智慧工廠、港口的智慧調度等等，這些場景都需要三維内容，要有一些數字車間，這部分的發展其實遠比我們想象的要成熟，隻是距離日常生活稍微有點遠，許多人不太了解。」

動态 3D 模型亟需突破

同樣作爲在現場比較有代表性的廠商之一的元象，選擇了 3D 市場中的其他切入方向。大空間 VR 是他們此次展出的重點産品。

其偏于 XR 的整合應用本身，應用場景主要在線下通過佩戴頭顯進行沉浸式體驗，當前元象在全國已開設了三十多家「幻旅之門」線下門店。

據元象引擎和 AIGC 算法負責人黃浩智介紹，「我們主要以超采樣配合性能優化帶來高清晰度畫面，品質清晰度、不眩暈以及幀率穩定是我們大空間 VR 的優勢。」

另外，元象本次大會帶來也展示了一款骨骼動畫的插件，通過文本生成骨骼動畫的動作。今年 8 月，元象推出了國内首個基于物理的 3D 動作生成模型 MotionGen，主要解決生成逼真角色動作的行業内持續性挑戰問題。

不過，元象也還在探索初期。會場有 3D 從業者告訴 AI 科技評論，當前，在 Animation Rigging 的方向上，其實還比較缺少用數據訓得非常充分、非常 Scale 的模型，去服務動态 3D。

MotionGen 在動作自然度、文本匹配度等方面也都還有提升空間。

「如若描述的文字太過複雜，可能會存在無法理解的情況，訓練數據也影響到最終呈現的效果，數據、模型都還有很多優化空間。」元象動作生成算法負責人鍾國仁向 AI 科技評論介紹道。

也同樣由于剛剛起步，用戶處于免費試用期，所以元象所使用的也還是開源數據集。

當前，在解決數據問題方面，比較主流的路徑有兩條：

一是結合動捕設備自己生産數據，這也是業界普遍采用的方法。展位位于元象對面的廠商唯晶科技所選擇的方式便與此類似。

唯晶科技旗下産品 Genmotion.AI 的負責人劉同梅介紹，「我們目前和世界排名靠前的遊戲公司合作，而他們在使用 AI 工具時，其實擔憂的關鍵問題在于數據來源，所以我們所有的數據都是自己動捕的，所有的動作都有全程錄影詳細記錄，甚至結合區塊鏈輔助溯源。」

元象也有自己的動捕設備，但在鍾國仁看來，前述做法其實對許多廠商而言比較費時費力。

所以，元象更看好另外一種做法，即從視頻裏提取動作，之後再基于大語言模型理解這些動作，然後形成相關文字描述，這也相當于一部分數據。

元象 XVERSE 展位

另外，骨骼的形态變換也有廠商正在探索更多情景。

劉同梅告訴 AI 科技評論，「我們目前的 3D 動畫隻有一種骨架，骨架重定位的功能正在開發中，之後可支援侏儒和巨人有差異性的骨骼，另外，現階段 3D 動作隻支援人的骨骼，四足動物動作數據還未深入研究。」

值得一提的是，VAST 的 Tripo 平台上也有自動角色綁定和動畫的相關功能，可以控制所生成的 3D 形象展開多樣的動作，但目前主要适用于人形或類人形角色，更加泛用的動畫功能還在研發當中。

結構化生成也是後期需要研究突破的方向。在業者的設想中，未來其實可以做到讓類似抽屜等物體可拆分爲幾片，甚至操作其開合，這也會是一個有想象力的方向。

面向更大的 3D 場景的産品也同樣仍處在發展初期，目前做得更偏向于全景圖像，将其 3D 化可以看到任意一面的動态，但是，通過 3D 實現操作和交互物件業内也還在探索中。

值得一提的是，事實上，Animation 和李飛飛所提出的「空間智能」也是有共通之處的。

胡瑞珍談到，「 Animation 通俗理解其實就是建模已經做好了，之後讓角色動起來，看上去更加真實，這其中所有的東西都會涉及到對空間感知、空間計算，現在我們把 AI 的一些技術用進來，其實跟空間智能的概念是很像的。」

「李飛飛把空間智能推得很火，但其實也不算是新的概念，她其實就是把學界此前沒有合并的概念進行了合并，另外她其實也沒有嚴格定義到底怎樣才算空間智能，所以在我們看來，隻要在三維空間去進行感知、交互，都算是需要有空間智能的。」

寫在最後

今年第三次回歸東京的 SIGGRAPH Asia 相比于去年的悉尼，參會熱情明顯高升，不少參會者都向 AI 科技評論興奮地分享了一邊學術交流一邊遊玩東京的經曆。

SIGGRAPH Asia 作爲 SIGGRAPH 在亞洲的延伸，雖然參會人數和投稿量規模會相對小一點，但同樣也作爲大會技術交流和海報主席的胡瑞珍向 AI 科技評論透露，兩場大會的技術論文評選标準是完全一緻的，論文質量也處于同一高度。

近年，投稿數量從三百多篇到近千篇，學者投稿 SIGGRAPH Asia 的熱情正直線走高，不過，也有會場學者表達了些許遺憾，在他們看來，本次大會還是沒有給到太多預期外的驚喜。

明年的大會将落地在香港，在人工智能的浪潮之下，計算機視覺和圖形學的未來發展将會如何，可以繼續拭目以待。雷峰網雷峰網