以下文章來源于GT遊戲圈 ,作者遊戲扳機
前言
3D資産的制作和驅動一直以來是遊戲生産流程中高成本的部分,也讓許多小團隊望而卻步,經過前面幾場AI原畫、動畫視頻、遊戲音樂、原生玩法場的直播,生成式AI在3D資産領域又能做到什麽水平呢,能否給傳統的3D制作管線帶來"小小的AI震撼",我們邀請了Meshy CEO 胡淵鳴博士、影眸科技 CTO張啓煊、CyanPuppets CEO李宗興、網易遊戲主美術NS老師,一起探讨生成式AI在3D模型、動畫等領域能做到什麽水平?
胡淵鳴,Meshy.AI CEO,MIT圖形學博士,職業生涯聚焦計算機圖形學工程、科研和産品,獲得SIGGRAPH 2022傑出博士論文提名。博士畢業以後一直在圖形軟件領域創業,最近主要在和團隊做新産品 Meshy AI,希望做成地表最強3D AIGC平台。
張啓煊,影眸科技 CTO,上海科技大學智能視覺與數據中心研究生,創立了數字人底層技術公司影眸科技,并擔任CTO。主要從事數字人底層技術與生成技術研究,研究方向爲計算機圖形學、計算攝影與生成式AI。帶領團隊研發了穹頂光場等核心技術,數項科研成果被SIGGRAPH/ICCV等國際頂級學術會議接收,并被成功應用于數十個影視、遊戲項目中。
李宗興,CyanPuppets CEO,AI産品專家,曾任職于騰訊音樂娛樂集團,騰訊研發效能部、虎牙直播、阿裏大文娛、任玩堂等公司。
NS,前《崩壞3》角色負責人,現網易遊戲主美術。
成志&ROSA,主持人,AI+遊戲市場觀察者,GameTrigger投資副總裁
他們探讨的話題包括但不限于:
爲什麽3D資産生成需要AIGC?
能通過三視圖生成3D模型嗎?
學術屆和工業界之間的Gap在哪裏?
目前不同領域的3D生成能做到哪一步了?
我們将他們的部分讨論整理成文,期待能帶來新的思考和啓發,Enjoy~
胡淵鳴 Meshy分享
用AI在一分鍾内生成3D模型
我21年的時候從MIT博士畢業一直在創業做圖形軟件,最近在和團隊做 Meshy AI,讓用戶零門檻從文字、圖片生成 3D 模型。Meshy 團隊分布在全球,我們想把 Meshy 做成全球 3D 生成式 AI 領域最好的産品。
Why AIGC for 3D?
大家可能有一個問題,爲什麽學術界能取得比較集中的進展,但真正的好産品卻沒有出現?生成式AI有很多模态,比如文字、圖片、視頻,其中不乏能商業化落地的項目,而 3D生成的産品現在仍沒有出現一個Leading Player,處于空缺位置,而這裏面有很多的事我們可以去做。
從需求出發,對3D内容的需求是不斷增長的,特别是在影視、遊戲、XR行業,未來的3D互動内容會快速增長。全球遊戲是一個1600億美金的大生意,雖然現在增速可能放緩,但全球3D資産一年大概要消耗30到100億美金的生産成本,高級3D藝術家做一個模型大概是幾周的時間,而愛好者做獨立遊戲或者3D打印之類要用到3D模型的情況就得去學習像Blender、Maya這樣的建模工具,所以可以看到供需不平衡的存在, AI技術最近的成熟使得快速3D内容創作工具對大家充滿了吸引力。
那麽爲什麽現在還沒有一個Leading Player呢?首先,是速度和質量的取舍。生成3D資産主要有兩種方式,第一是生成多個視角的2D圖片,然後通過NeRF之類優化的方式去得到3D模型,這種方法質量相對來說還不錯,但實際上學術界和生産環境中要求的差别非常大;以及速度很慢,經常要等半小時或者幾小時才能生成一個模型,對用戶體驗來說,反饋時間很長,對企業來說,要提供雲端GPU去做優化,GPU成本很高,很可能入不敷出。另外一個極端像Open AI的PointE/ShapeE,速度很快,直接在3D基礎上做生成,但由于3D數據的稀缺性,它的質量上不是特别好。我們希望做到速度快,并且質量也不錯,如果把質量和速度分成四象限的話,我們希望做到右上角的位置。
第二個難點是學術和産業的鴻溝。我在MIT做博士研究的時候,大家平時想的都是如何去發表一些比較好的論文,但是作爲創業者,你又會面臨用戶的一些真實需求,論文拿到真正的生産當中會遇到很多問題,比如風格不可控、Poly Count很糟糕、甚至用戶界面不是特别可用,學術和産業的鴻溝導緻了雖然學術界看起來百花齊放,但是真正好的産品還沒有出現。
3D生成式AI産品要做到五個事情,那就是"多快好省易"。
1. "多",是你的樣式要豐富,得支持不同的場景美術或者角色美術,并且擁有一定泛化能力,如果沒有泛化能力的話,不如去搞個資産庫或者用程序化生成的方式去生成資産;
2. "快",因爲AI很難每一次都給保證符合要求的結果,用戶通常期待五分鍾以内能産出,另一方面,從商業角度來說,運行時間長導緻成本很高;
3. "好",其實是目前最大的難點,也是用戶最期待的事情。網格、貼圖、PDR channel等方面我們現在能做到的和實際需要的都有很長的距離。
4. "省",用AI就是想降成本;
5. "易"指易用,産品需要符合已有的3D生産工作流程,需要團隊對于用戶需求和CG行業有深入理解。
我們的嘗試
從這五個原則出發,我們做了Meshy,它現在是全球3D生成式AI裏跑在比較前面的玩家,從5月份上線到現在有将近10萬的用戶,每周能增加20%,基本上沒有花市場費用,可以看到大家的關注度還是挺高的。我們的定位是分鍾級别生成高質量的3D模型的解決方案,目前的合作夥伴有像美國的一些上市公司,他們調用我們的API去給AR玩法提供文字生成貼圖服務。
Meshy 有三個功能,分别是文字生成3D、圖片生成3D、以及從文字生成貼圖,同時能以兼容格式導入到下遊的Unity、UE、Blender進一步編輯。我們先解決了"速度"的問題,雖然快和好存在取舍,但是我們先把快的問題解決才能夠讓更多用戶用起來。此外還支持4K的PDR貼圖生成和風格控制,風格非常重要,如果一堆高質量資産放在一起如果風格不統一,看起來也将非常雜亂。我們也有Unity和Blender插件後面會上線,并且我們特别重視多語言支持,可以直接用多國語言寫提示詞。
我逐一介紹一下三個重要的功能,一個是紋理生成,給一個3D網格,加上文字提示詞就可以快速生成紋理。通過這個技術,我們和Soul Chronicle落地了全球第一款3D AIGC手遊,以前遊戲時裝需要人力繪制,現在可以用AI直接生成360度時裝,做到千人千面。也可以在VR中建模,用Meshy生成貼圖;也可以和UE結合,比如說把裙子模型導到Meshy裏,用提示詞繪制它表面的圖案,就可以在UE裏面制作動畫了。
接下來是文字生成3D資産,主要是在遊戲生成環境美術當中比較有用,比如你隻要輸入文字,就可以生成一個帶貼圖的3D模型,好處是使用非常方便,缺點是控制力不足。一個常見的問題是用戶爲啥不直接去SketchFab搜,因爲其實經常找不到自己想要的東西,所以需要AI生成。這是我們用戶創建的一個場景,裏面所有的模型都是AI生成,雖然這樣的效果目前還需要技巧,但也證明對于寫實環境資産的中遠景,Meshy的Text to 3D做的還不錯。
接下來是圖片生成3D模型,在角色美術上用得多一些,你需要一張前視圖或者手繪圖,也可以是MJ或者SD的輸出,Meshy會把它變成3D模型。好處是可控性比較強,缺點是得先生成或繪制圖片,流程稍微複雜一些。你如果有一些自己的應用想接入Meshy功能,也可以使用我們的API。
我們在哪裏?朝哪裏去?
一開始我們有一個大問号,就是3D生成式AI的位置會由誰去站着,我們很希望把Meshy做成3D生成式AI,特别是3D模型資産方面。接下來有一個問題,我們距離實現一個3D的Midjourney還缺什麽?首先市場方面,3D模型市場比2D圖片市場小很多,可能十分之一的規模都不到,消費級的3D的場景還沒有成熟,可能VR頭顯是一個契機,但要5000萬保有量時可能已經是2027年以後了,所以需要一些時間。
技術方面,現在3D AIGC還不是特别成熟,比如網格質量、視角一緻性、内容多樣性、可控性等都遠遠沒有到工業生産标。現在可能隻解決了10%的問題,但我相信剩下的90%進展速度也會挺快的,至少再等兩年或者更長時間,是值得做的事情。
和其他模态AIGC産品比起來,文字、圖片、語音等基本上比較成熟、能夠明确落地;視頻技術雖然相對還比較早期,但視頻消費市場是很成熟的。3D現階段其實比視頻更加早期,技術也有挑戰,我最後用一句話來結尾就是敢爲天下先,其實ChatGPT或者MJ都是在大家不相信他能做的時候開始,最後才能站到這個位置,作爲創業者還是要有一些冒險的精神,要走在前面。也許以後大家做3D資産的成本相對來說低很多,不管是對于專業用戶還是對于業餘用戶,把時間用在真正有創造力的事情上。
QA
觀衆
怎麽看待MVDream這個技術路線呢?
胡淵鳴
這個技術路線挺不錯的,基本是我最近見到最好的工作之一了,但它的速度相對來說慢了一些,如果能夠做到一兩分鍾以内,我覺得是很值得去商業化的東西,當然從學術界到産品,還要付出很多的努力。
3D生成資産離商用還有多遠呢?
從素材複雜度和豐富度層面來說,3D AIGC還達不到遊戲生産中 hero asset的要求,可能還需要至少兩年的時間才能達到符合遊戲生産需求的标準,我是比較技術樂觀主義的人。
成志
如果我喂三視圖給Meshy能行嗎?
目前隻支持正面,其他兩個視圖我們一直在想辦法去做,其實建模基本上是三視圖,主要難點在于三視圖本身可能就不一緻,你需要進行語義上的提取,它不是特别容易能以算法标準化的方式去做。
NS
我試用了一下Image to 3D,我覺得比較大的卡點在于3D比較講工作流,您也提到Meshy的布線、分UV之後其實等于是映射上去的,會比較亂,我們沒辦法在正常工作流裏繼續加工,比如我想讓它動起來的話,如果想要用比較精緻的綁定,如果布線的三角面和四邊面處理的不是特别好的話,其實是進不去綁定的,後續工作的開展會比較困難。我覺得可以考慮有沒有那種自動拓撲軟件,在上面拓一層規範的布線,以這種邏輯的就可能可以進工作流,後續還是得有其他軟件跟它一起打支援,一起産生出一個相對比較規範的一個模型。
我特别認同,我們也在做三角面轉四邊面的一些研發,很快也會上線了,如果我們能在軟件内部自動吐出來四邊面的話,用戶用起來會方便一些,也會更接近量化生産。另外關于綁定問題,現在Image 2 3D生成的内容是可以上傳到Mixamo的,但是主要還是中遠景的配角綁定。
我們确實認爲學術界可能有很多問題都沒有解決,很多用戶來用其實也就是圖一樂而不是真的用在工作流程中了。我們覺得質量越好,能進行的商業化的空間就會越大,我們自己還是很有信心想把這個事情去長期做好的。
我有個想法就是關于三視圖的問題,有東西互相遮擋的時候生産會比較困難,其實可以考慮把它切成一塊塊的,生成之後再在3D軟件裏把它給拼起來。
但我不知道如果這樣再折騰一把,倒不如直接手動建模了,所以現在AI建模最大的挑戰是你用AI生成的東西,用戶如果要求很高,他會發現這個修補的時間還不如重做,所以現在隻能在一些邊緣的場景先做進去,要不然會變成爲了用AI而用,那就得不償失了。
張啓煊分享
影眸科技:數字人生成
我們的産品主要是可以讓大家能夠快速生産直接使用在遊戲中的數字角色,對直接使用的定義是它原生輸出的就是四邊面、所有角色的拓撲都是規範且一緻的、提供多種不同UV布線和不同拓撲結構的導出方式,代價就是它隻能用來生成人。它的方式很簡單,我們做了一個Chatbot,使用中會通過對話幫你總結到左邊的Prompt欄裏,因爲我們發現讓一個人去想他腦子裏的角色要長什麽樣子,直接用文本描述是很痛苦的,一開始編到第五個角色就編不下去了,剛好ChatGPT出來,在GPT的幫助幫我們完成了100多個角色的Prompt轉寫。比如我希望有一個長得像普京、看起來比較健壯的男人,那就能直接生成,并且帶PBR材質,包括normal、specular、diffuse都是毛孔級的,你也可以進一步通過調prompt去生成各種花紋圖案。
上述是我們最開始4月1日發布時包含的功能,經過幾個月叠代我們現在做到了可以通過三張照片生成想要的角色,比如生成馬老師隻需要上傳一張正面照,就可以得到一個幾乎是pixel line的角色,它的布線是标準的、面部是delighting并且帶PBR材質,你也可以直接輸出面部的表情和綁定,可以直接使用在角色裏面。
我們剛開始出來的時候從從一篇paper都沒有一路升級打怪,我創這家公司時才大二,我們實驗室之前一直是在圖形學領域,但我們更加偏向于計算影像這個方向,我們解決的是怎麽樣把一個物品在三維世界或者在平面上表達出來。3D數字人、2D數字人神經渲染、圖像生成的3D渲染等方面幾乎是我們工作内容的全部了,但我們在開展這些科研的時候其實已經有這家公司了,所以會更加考慮怎麽樣去把這些東西落地。
我們主要focus三個方向。一個是怎麽做重建,二是怎麽做動畫,三是怎麽通過積累大量的數據去把我們要的東西直接生成出來。Chat Avatar這個産品也是有幸登上了今年SIGGRAPH Real-time Live! 舞台,也是國内第一次有團隊在這個舞台上。
和老黃的合照
我們最開始做這件事是2016年,我還沒有進上科大,但是整個科研課題組已經開始了,但整個實驗室的主要focus在數字人,或者說怎麽把現實中的人copy到虛拟世界。所以我們做了當時國内第一個光場系統,也是最早一批開始采用光場的方案去做高精細度人臉重建、以及從一張照片還原人臉的相關技術的研究團隊。
當我們開始做這家公司的時候,剛好是一個比較特殊的時間點,那一年NeRF橫空出世,整個圈子都開始關注那項技術可能會給接下來的圖形圈帶來的影響和變化。其實與其說是橫空出世,更像是神經渲染開始引起大家注意,而NeRF是神經渲染中的主力軍。所以我們做的第一個工作是人像的重打光,可以在拍攝完圖像之後再去編輯數字角色面部的光照,更多是2D的東西,我們一開始覺得牛逼爆了,可以改變影視特效和制片上的流程,結果一套都沒有賣出去。
我們發現最核心的問題是我們所使用的渲染方案其實沒辦法跟現在遊戲和影視中的管線相兼容,實時性沒有辦法用在遊戲影視裏,隻能作爲一個小玩具,這也直接導緻我們接下來做的所有工作都開始考慮一個問題,到底有沒有人會買單,還是隻是學術圈的自嗨。雖然我們沒有把這件事做成,後面還是有人把這件事做成了,叫Initial ML,它被Stability AI收購了,老黃去年的GDC上也跟大家展示英偉達在人像重打光上的進展,他說他要比前人的工作好上十多倍,我們就是那個前人的工作。
我們很想把這個産品接着做下去,但是後來放棄了,當時整個團隊隻有八個人,我們覺得如果堅持把這個東西做下去無非就兩個方向,一個是工具,我們沒有特别長期的快速叠代能力,一個是社區,但我們八個做技術的也不一定能做成,所以我們決定把所有2D路徑砍掉,開始往3D去靠。
我們也吸取了教訓,就是學界跟工業界在3D資産的使用和表達上其實是完全不同的,我們需要保證産品在第一時間就能直接兼容工業界标準。我們第一個發力方向是在數字人上,我們做了一套叫穹頂光場的技術,可以高精度掃描真人,能到亞微米級皮膚微結構的精度,這項技術也用在了很多國内的數字人項目裏,包括影視作品,比如流浪地球二。
通過這項技術,我們積累了大量人臉數據,掃描像這樣的級别的數字人從掃描到完成制作以前需要一兩周的時間,而我們當天就可以完成,而且可以直接用在電影作品裏。有了這些數據資源後,我們就可以去做一些跟AI還有3D生成相關的事情,人臉資産數據庫(PFA)裏面每一個角色其實都帶了個性化自由綁定,因爲我們在掃描時會掃描它的動态、4D、極限表情的運動,然後會有一套算法把它拆分到專屬于它的綁定;第二,每個角色都有毛孔級的細節,而且都有完備的PBR材質,并且有動态貼圖可以去模拟出特别細膩的皺紋等一系列效果。
回到3D生成,我覺得兩年都有點樂觀了,我可能是個技術悲觀主義,在3D生成漫長旅途中我們肯定還是有什麽事可以做的,所以我們去年年底做了DreamFace這項工作,我們放棄了廣泛的3D生成,而專注于角色領域,我們已經能夠做至少配角級的模型,也是帶骨骼綁定的,這項工作也發表在了今年的SIGGRAPH上。
我們的Chat Avatar除了這個平台本身以外,我們其實還提供不同平台的插件,包括Unreal、Unity、Blender等,你可以直接把生成出來的角色去導入到引擎中,可以直接用ARKit驅動,直接控制上下左右試用。我們現在還在做一個特别的插件,這個插件是爲Cyberpunk2077打造的,你可以直接把裏面的任何角色換成生成的人臉,相信到時候也會有很多有意思的玩兒法。
照片生成3D的使用其實也很簡單,比如你可以直接把角色三視圖上傳到,它會去把人臉craft出來,你可以直接生成跟這個角色最接近的一個三維人臉模型,你也可以進一步導出它的面部驅動、身體綁定、眼珠牙齒都可以導出。爲什麽我們在網頁端不展示眼珠牙齒,是因爲web端渲染不太能滿足我們對真實度的要求,所以我們幹脆不展示了。我們覺得Prompt從文本去生成3D資産更加是個缺口,或者說當你需要批量生産的時候會去采用的方式,而從照片去生成可能更加符合我們獨立遊戲,或者說可控性要求比較高的一些情景。
這是我們Blender插件中直接把生成結果導入的效果,其實可以看到它面部的細膩程度我覺得是比市面上很多掃描公司的質量要高的,因爲我們的數據質量很好,一些國外的名人你可以直接通過文本去生成。
QA
二次元角色生成會不會也很有意思?難點在哪裏?
啓煊
我們這一套生成方案裏很依賴差分渲染,差分渲染現在基本上是類PBR渲染,但二次元其實更多的是NPR,所以得先把這個核心問題解決了。雖然我不是二次元,但是我做過二次元産品,我們現在對二次元的優先級蠻高,有很大的精力花在這上面。
感覺産品成熟度挺高的,剛才你們在說二次元的角色生産,其實二次元角色的臉部制作現在有一個類似通解方案的東西,我推薦你們去看一下日本ARC的關于二次元NPR渲染的技術分享和模型,靠它那一層基底基本上可以還原90%以上的二次元臉部畫風,然後以基底作爲變形其實大部分都可以解決掉,我覺得可以從那方面找一找突破口,因爲其實米哈遊NPR渲染技術的基底也是看的罪惡裝備xrd的技術文檔。
我們超寫實角色這一塊有很多還沒有上線但已經做好的,比如毛發生成,服裝生成。我們做二次元的時候,其實一部分精力是面部,另一部分精力是頭發,NPR這塊我們确實感覺有點難度。
李宗興分享
Cyanpuppets:2D視頻實時生成3D動畫
我們想爲業界提供輕便化驅動3D資産的模型方案,主要是做2D視頻實時生成3D動畫,以神深度神經網絡和卷積神經網絡算法爲核心,使輸入的2D的視頻源解析成面部、手指、肢體等全模塊動作數據,再映射到3D引擎裏實現生成3D動畫。
我們的模型有9億數據量,參數量相對較小,主要是2D生成3D動作的專用模型,通過一段實時的2D的視頻流解析208個關鍵點捕捉,生成延遲是0.1秒。
這是我們的一個Demo,它的質量介于傳統慣性捕捉和高昂的光學捕捉之間,你幾乎可以做任何你想要的動作。國内案例像騰訊、哔哩哔哩、完美世界、清華大學、北京大學、中國傳媒大學、阿裏大文娛等客戶有使用cyanpuppets進行3D内容領域的探索,國外案例像Skep、one or eight等團隊也類似。
這是我們的技術原理,将2D視頻通過模型處理後生成一個3D向量空間,有點像特斯拉在2019年提的概念,在這個空間裏面可以解析出完整的人物骨骼,我們也建立了一套完善的人體生物力學和動力學來解析每一個骨骼點的耦合關系。我們基于COCO數據集和自己訓練了70%的數據據集在英偉達的CUDA上跑,最終生成面部140個關鍵點、字體30個關鍵點、單手21個關鍵點的動态捕捉數據輸出。某大學用我們的方案進行人體生物力學的采集研究,包括采集工人操作的3D數據來幫助降低失誤;拜科生物則用在臨床醫學上,将一套人體肌肉系統實時接入我們視頻流,用來演示人體的完整骨骼是如何運動、肌肉關系是如何的。在3D引擎中,通過關鍵骨骼點和重定向算法,最終映射到UE或者Unity。
我們第一個支持的是虛幻平台,尤其是超寫實數字人方面的表現,我們支持UE、MetaHuman、CC4等多種規格,無需二次開發調整,我們做了一套算法來支持絕大部分3D模型标準的直接映射,把模型拖進來就可以直接驅動了。從生成視頻到3D動作到模型端,我們打通了一個産品,并且已經以License的形式授權使用。
我們對算力的要求也比較低,隻要RTX3060在本地部署就可以達到0.1s的延遲,目前沒有上到雲端。我們定制了一款非常穩定的RGB camera,可以使高質量的捕捉數據并保存到本地,也可以實時應用到虛拟主播、VR遊戲裏面。
我們也提供了在3D引擎裏面簡單使用的方案,隻要在UE裏面安裝我們的插件并勾選,把采集端的IP地址輸入到UE,就可以把動作數據傳輸到工程文件裏。它的鏈路非常的簡單,可以快速得到非常高精度的數據。
QA
怎麽看待Demotion這個解決方案呢?
李宗興
它其實是單攝像頭的視頻生成方案,在生成質量上跟我們還是有不少差别的,至少并沒有在商業化場景裏面有直接落地。而我們對在全球範圍内已經有非常多客戶完成了商業化落地,精度也比他們提升60%到70%左右。
我們方案是采用兩路RGB視頻流去生成的,它是黑白像素生成,意味着它可以在比較昏暗的環境裏完成,場地要求2.5米乘以2.5米左右。
這項技術的作用挺大的,因爲遊戲開發裏,特别是偏大型的遊戲,動作的産能會是一個非常大的卡點,如果能基于視頻生成動作,我們可以去做一些很快速的驗證,在整個工作流裏的可實用性挺強的。
怎麽看待Open Pose這個解決方案?
Open Pose是卡耐基梅隆大學做的一套非常強的方案,是一個顯卡消耗型的方案,拿無窮無盡的這個算力解析離線視頻流。在英國我們有一家競争對手叫Move AI,他們最大的問題就是它生成的隻有肢體部分,而且需要20萬左右的這個渲染主機才能跑得動,并且是一個非時事方案,想要做到十多幀需要有非常強大的算力和非常好的視輸入源。我們是一個自研框架,跟其他廠商的實現原理都不太一樣,所以性能上也有差别。
室外場景和逆光環境的表現如何?
我們也支持室外,我們有客戶會在室外的羽毛球場裏進行動作捕捉。但逆光環境表現确實還差點,因爲逆光輸入的視頻源清晰度比較差,大部分的位置過曝了,我們不能很好的解析。
相比于低端光學,我們的優勢是不需要穿戴任何設備,并且輸出的FBX數據能媲美入門級的光學棚,Rokoko慣性捕捉的肢體穩定性在前十分鍾跟我們差不多,但它沒有手指和面部,而在長時間下,它會産生信号漂移以及肢體扭曲問題,但我們是AI生成方案,完全沒有這方面的顧慮。
注:以上内容僅代表嘉賓個人觀點,不形成任何普适性結論,其他讨論紀要将在後續逐步整理放出,敬請關注~