ChatGPT 給 AI 行業注入一劑雞血,一切曾經的不敢想,都成爲如今的基操。
正持續進擊的Text-to-3D,就被視爲繼 Diffusion(圖像)和 GPT(文字)後,AIGC 領域的下一個前沿熱點,得到了前所未有的關注度。
這不,一款名爲 ChatAvatar 的産品低調公測,火速收攬超 70 萬浏覽與關注,并登上抱抱臉周熱門(Spaces of the week)。
△ChatAvatar 也将支持從 AI 生成的單視角 / 多視角原畫生成 3D 風格化角色的 Image to 3D 技術,受到了廣泛關注
有夠酷的,感覺能很便捷地生成自己的數字孿生了。
由此吸引不少網友紛紛試用并貢獻腦洞。有人拿這款産品和 ControlNet 結合,發現效果細膩寫實到有些出乎意料。
這款使用起來幾乎零門檻的 Text-to-3D 工具名叫ChatAvatar,由國内 AI 初創公司影眸科技團隊打造。
據了解,這是全球首款 Production-Ready 的 Text to 3D 産品,通過簡單的文本,例如一個明星的名字、或是某個想要的人物長相,就能生成影視級的 3D 超寫實數字人資産。
效率也非常高,平均僅需 30 秒,就能做出一張以假亂真的臉——甚至是你自己的。
未來,生成領域還将拓展到其他三維資産。
并且該模型帶有規整的拓撲、帶有 4k 分辨率的 PBR 材質,同時帶有綁定,可以直接接入 Unity、Unreal Engine 和 Maya 等制作引擎的生産管線中。
所以,ChatAvatar 到底是怎樣一個 3D 生成工具?背後究竟用到了什麽技術?
30 秒完成一次 " 畫皮 "
親身體驗 ChatAvatar 的玩法發現,可以說是真 · 零門檻。
具體而言,隻需以對話的形式,在官網上用大白話向 ChatBot 描述自己的需求,就能按需生成 3D 人臉,并覆蓋一張貼合模型的真實 " 人皮 "。
對話全流程裏,根據用戶需求,ChatBot 會進行引導,盡可能細節地了解用戶對所需模型的想法。
體驗過程中,我們向 ChatBot 描述了這樣一個想要生成的 3D 形象:
點擊左側的 Generate 按鈕,平均 10s 不到,屏幕上就出現根據描述生成的 9 種不同 3D 人臉的初始雛形。
随意選擇其中一種後,會基于選擇繼續優化模型和材質,最後出現覆蓋皮膚後的模型渲結果,并展現不同光影下的渲染效果——這些渲染在浏覽器内實時完成:
用鼠标拖動,還能旋轉頭部,并放大看更細節的局部效果,毛孔和痘痘都清晰可見:
值得一提的是,如果用戶是個提示工程高手,直接在左側框中輸入 prompt,同樣可以完成生成。
雖然 beta 版本還沒上線發型功能,但整體而言,最後生成的 3D 數字人資産與描述内容已經有高匹配度。
官網上還陳列了許多 ChatAvatar 用戶的生成資産,不同人種、不同膚色、不同年齡,喜怒哀樂,美醜胖瘦,各式相貌應有盡有。
總結一下 ChatAvatar 這款産品生成 3D 數字人資産的效果亮點:
首先是使用簡便;其次是生成跨度大,且五官可改,還能生成與面部貼合的面具、紋身等,譬如這樣:
根據官方宣傳片介紹,ChatAvatar 甚至可以進一步生成超出人類範疇的角色,如阿凡達等影視作品中的角色:
最重要的是,ChatAvatar解決了 3D 模型與傳統渲染軟件存在的兼容性問題。
這意味着,ChatAvatar 生成的 3D 資産可以直接接入遊戲和影視生産流程。
當然,在正式接入工業流程之前,首輪公測,ChatAvatar 已經吸引了數千名藝術家和專業美術人員參與,推特相關話題受到近百萬的浏覽與關注。
随随便便一條推文,浏覽量都能破 50k。
積攢了大批 " 自來水 " 不是沒有原因,看看 3D 的愛因斯坦之臉,試問誰不說一句真的很像?
要是和 ControlNet 結合,生成效果不亞于單反相片直出:
已經有不少用戶體驗後,開始暢想将這個 Text-to-3D 工具大規模應用在遊戲、影視等工業應用上了。
據了解,用戶反饋會成爲 ChatAvatar 團隊快速叠代和更新的重要依據,形成數據飛輪,以便及時提供更加完整和貼近需求的功能。
事實上,對于此前的 3D 行業設計師或公司來說,大部分 AI 文字轉 3D 應用并非效果不好,但實際落地到工業設計流程上,還是有不少難度。
這次 ChatAvatar 能如此出圈,背後究竟有什麽技術上的原因?
符合産業要求的 3D 資産生成,究竟難在哪?
都說 AI 要替代人類,事實上僅僅就 Text-to-3D 領域,就并非那麽容易替代。
最大的難點,在于讓 AI 生成的東西從标準上符合産業對 3D 資産的要求。
這裏面的産業标準怎麽理解?從專業 3D 美工設計的視角來說,至少有三個方面——
質量、可控性和生成速度。
首先是質量。尤其是對于強調視覺效果的影視、遊戲行業來說,要想生成符合管線要求的 3D 資産,拓撲規整度、紋理貼圖的精度等 " 行業潛規則 ",都是 AI 産品第一道必須邁過去的坎。
以拓撲結構的規整度爲例,這裏本質上指的是 3D 資産布線的合理度。
對于 3D 資産來說,拓撲的規整度,往往直接影響物體的動畫效果、修改處理效率和貼圖繪制速度:
據行内 3D 美工設計介紹,手工重拓撲的時間成本往往比制作 3D 模型本身更高,甚至按倍數以計。這意味着即使 AI 模型生成的 3D 資産再炫酷,如果生成的拓撲規整度達不到要求,成本就無法從根本上得到降低。更别提紋理精度。
△影眸科技的 ChatAvatar 項目在生成質量、速度以及标準兼容上相比先前的工作都有明顯的提升
以目前遊戲、影視行業普遍要求的 PBR 貼圖爲例,包含的反射率貼圖、法線貼圖等一系列貼圖,相當于 2D 圖像 PSD 文件的 " 圖層 ",是 3D 資産流水線生産必不可少的條件之一。
然而,目前 AI 生成的 3D 資産往往是一個 " 整體 ",少有能按要求單獨生成符合産業環境的 PBR 貼圖的效果。
其次是可控性,對于生成式 AI 而言,如何讓生成的内容更加 " 可控 ",是 CG 産業對于這項技術提出的又一大要求。
以大衆所熟知的 2D 産業爲例,在 ControlNet 出現之前,2D AIGC 行業一直處在一種 " 半摸黑前進 " 的狀态。
也就是說,AI 能生成指定類别的物體畫面,卻無法生成指定姿态的物體,生成效果全靠提示工程和 " 玄學 "。
而在 ControlNet 出現後,2D AI 圖像生成的可控性獲得了突飛猛進的提升,然而對于 3D AI 而言,要想生成對應效果的資産,很大程度上依舊得依靠專業的提示工程。
最後是生成速度。相比 3D 美工設計而言,AI 生成的優勢在于速度,然而如果 AI 渲染的速度和效果無法與人工匹敵的話,那麽這項技術依舊無法給産業帶來收益。
以當前在 AI 技術上頗受歡迎的 NeRF 爲例,其産業化落地就面臨速度和質量的兼容性難題。
在生成質量較高的情況下,基于 NeRF 的 3D 生成往往需要相當漫長的時間;然而如果追求速度,即使是 NeRF 生成的 3D 資産便完全無法投入産業使用。
但即使解決了這個問題,如何在不損失精度的前提下讓 NeRF 與傳統 CG 行業的主流引擎兼容仍然是一個巨大的問題。
從上面的産業标準化流程不難發現,大部分 AI 文本轉 3D 應用落地存在兩大瓶頸:
一個是需要手動完成提示工程,對于非 AI 專業人士、或不了解 AI 的設計師來說不夠友好;另一個是生成的 3D 資産往往不符合産業标準,即使再好看也無法投入使用。
針對這兩點,ChatAvatar 給出了兩點具體有效的解決方案。
一方面,ChatAvatar 實現了除手動輸入提示工程外的第二條道路,也是更适合普通人的一條捷徑:通過 " 甲方模式 " 直接對話描述需求。
團隊官方推特介紹稱,爲了實現這一特性,ChatAvatar 基于 GPT 的能力,開發了一種對話描述轉人像特征的方法。
設計師隻需要不斷和 GPT 聊天,描述自己想要的 " 感覺 ":
GPT 就能自動幫忙完成提示工程,将結果輸送給 AI:
換而言之,如果說 ControlNet 是 2D 行業的 "Game Changer",那麽對于 3D 産業來說,能實現文本轉 3D 的 ChatAvatar,無異于行業的遊戲規則改變者。
另一方面更爲重要,那就是 ChatAvatar 能完美兼容 CG 管線,即生成的資産在拓撲結構、可控性和速度上都符合産業要求。
同時,生成的模型和高精度材質貼圖,還能在後期的渲染中達到極爲逼真的渲染效果。
爲了實現這樣的效果,團隊爲 ChatAvatar 自研了一個漸進式 3D 生成框架 DreamFace。
其中的關鍵,在于訓練該模型用的底層數據,即影眸科技基于 " 穹頂光場 " 采集到的世界首個大體量、高精度、多表情的人臉高精度數據集。
基于這個數據集,DreamFace 可以高效地完成産品級三維資産的生成,即生成的資産帶有規整的拓撲、材質,帶有綁定。
通過引入外部 3D 數據庫,DreamFace 能夠直接輸出符合 CG 流程的資産。
△生成的資産驅動渲染的效果
上述兩大技術瓶頸的解決,本質上進一步加速了 AIGC 洪流下," 生成 " 将取代 " 搜索 " 的時代趨勢——
影眸團隊認爲," 生成 " 将成爲新一代數字資産的獲取方式。
此前,我們需要找到一張符合需求的圖片或者資産時,通常會使用搜索引擎進行查詢。
ChatAvatar 項目主頁上展示的巨大的 " 搜索框 " 和整齊的資産卡片,看似搜索引擎,但實際上是一種與搜索截然不同的資産查找方式。
△ChatAvatar 項目主頁
影眸科技 CTO 張啓煊對此介紹:
以前,如果我們需要一張插圖,可能要在多個圖庫中反複搜索,或是通過 Photoshop 合成、手繪等較複雜的方式才能得到結果。但在 Stable Diffusion 等技術出現後,你隻需要通過文字描述想要的圖像,就能直接生成符合需求的結果。
這對于傳統的資産庫來說是一個巨大的沖擊。而 ChatAvatar 的目标,正是用 3D 生成替代傳統的搜索式 3D 資産庫。
AIGC 領域的下一個前沿熱點
ChatGPT 一石激起千層浪,進入 AI 2.0 時代之後,人們的目光也投向包含圖像、視頻、3D 等信息的多模态 AI。
僅就 3D 生成領域而言,無論是影視還是遊戲行業,3D 内容生産和消費市場已經擁有足夠大的規模,但在制作層面卻因技術難度遭遇掣肘。
譬如,文本領域大行其道的 Transformer,在 3D 生成領域的使用還相對有限。
去年夏天,當文生圖領域因 Diffusion Model 取得成績後,人們開始期待文字生成 3D有同樣驚豔的表現。一旦生成式 AI 的 3D 創作技術成熟,VR、視頻等的内容創作都将起飛。
△擴散模型 Midjourney5.1 生成的 " 梵高風攝影 "
事實上,無論是科技巨頭還是初創公司,的确都在朝 Text-to-3D 這個方向暗暗發力。
去年 9 月,谷歌發布了基于文本提示生成 3D 模型的 FreamFusion,聲稱不需要 3D 訓練數據,也不需要修改圖像擴散模型。緊随其後,Meta 也推出可以從文本一鍵生成視頻的 Make-A-Video 模型。
後來的 Text-to-3D 的 AI 模型隊伍中,還先後出現了英偉達 Magic3D、OpenAI 最新開源項目 Shap-E 等,今年 8 月将舉辦的計算機圖形頂會 SIGGRAPH 2023 所展示的論文,也有多篇與 Text-to-3D 有關。
影眸科技有關文本指導的漸進式 3D 生成框架 DreamFace 的論文,就是其中之一。
而 ChatAvatar,也是目前爲止最集中在 3D 數字人資産方向的生成式模型産品。
其背後的 AI 初創公司影眸科技,2020 年孵化自上海科技大學 MARS 實驗室,成立後獲得奇績創壇與紅杉種子的兩輪投資。
公司專注于專注于計算機圖形學、生成式 AI 的研究與産品化。2021 年,AIGC 還未掀起巨浪之時,公司就已經推出國内首個 AIGC ToC 繪畫應用 Wand,産品一度登頂 AppStore 分區榜首。
而這個頗具前瞻性,且已在業内小有名氣的團隊,平均年齡隻有 25 歲。
将首個商業化場景具體錨定在數字人後,ChatAvatar 是他們乘 AIGC 東風在該方向的最新進展。
作爲一個新推出的産品,ChatAvatar 在兼容性、完成度和精度等産品效果層面,都超出了影眸團隊預期。然而在吳迪口中,行至此處的過程 " 很狼狽 "。
主要原因不外乎 " 缺人 " 一事。目前,影眸已經在多類别 3D 生成技術上取得了進展,下一步還計劃推出 "3D 生成大模型 "。
△影眸科技将于 5 月上線首個多模态跨平台 3D 搜索引擎 Rodin,打通 Sketchfab 等多個 3D 資産平台,支持以文搜 3D、以圖搜 3D 甚至以 3D 搜 3D。搜索引擎隻是 Rodin 的初級形态,影眸将把 Rodin 打造爲 3D 生成大模型。
需要持續向前推進,就需要更多的工程化團隊、技術美術和擁抱生成式 AI 的産品人才加入團隊。作爲一個以研發爲背景主基調的團隊,這樣的人才仍然緊缺。
" 人是萬物的尺度," 吳迪表示道," 我們需要更多志同道合的人加入,共同推動 3D 領域的創新發展。"
可以看到,ChatAvatar 背後技術從無到有的搭建,揭示了一家 AI 初創公司的不斷創新;而從這家公司對人才的渴望以小見大,更揭示着 AIGC 浪潮下,每一個細分領域想要從水下浮出水面的心。
你願意擁抱生成式 AI,成爲 Text-to-3D 領域的 Game Changer 嗎?
— 聯系作者 —
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~