我們來了一場300人的AI繪畫圖靈測試

前言

2023 年，生成式人工智能的浪潮席卷全球，AI 繪畫憑借着快速的出圖和易上手的使用，迅速掀起了大範圍的讨論和實踐。生産工具端，我們看到 Open AI 的 DALL · E 每天平均生成超兩百萬張圖像，也看到 Midjourney 憑借 11 人的團隊打造了千萬用戶量級社區；在用戶體驗端，既有《太空歌劇院》在藝術領域嶄露頭角，也有不少類似無盡的三月七的整活體驗。

今天我們邀請到了 Infinity Ward Lead UI Engineer 董晶晖、Tiamat 創始人青柑、星引擎社團遊戲設計師南瓜 & 資深美術 Angel，一起來探讨 AI 能生成有趣的創作風格和元素嗎？

董晶晖：Infinity Ward Lead UI engineer，參與開發《使命召喚：現代戰争 2》、《使命召喚：現代戰争》、《使命召喚：戰區》、《使命召喚：二戰》和《Skylander Battlecasters》，同時個人專注 AIGC 創作，喜好探索不同的可能性，着迷于視覺元素和表達；

青柑：Tiamat 創始人，相信科技和創意結合的浪漫，随時期待 AI 的新可能；

南瓜：星引擎社團遊戲設計師，曾參與制作《幻想計劃》《交響星輝》《星引擎 Party》；

Angel：星引擎社團資深美術設計師，曾參與制作《仙劍 OL》《龍之谷 2》《交響星輝》《星引擎 Party》。

成志 &ROSA：主持人，AI+ 遊戲市場觀察者，GameTrigger 投資副總裁

他們探讨的話題包括但不限于：

AI 和人工作畫有哪些區别？

AI 繪畫的出圖管線探索

AI 目前已經可以助力大型遊戲開發了嗎？

AI 繪畫如何助力小團隊開發？

AI 繪畫想融入開發管線面臨哪些挑戰？

模型層面有哪些技術探索？

我們将他們的部分讨論整理成文，期待能帶來新的思考和啓發，Enjoy~

圖靈測試：辨别 AI 作畫

南瓜

我挑了些偏氛圍感的插畫，但裏面隻有一張是人畫的，猜一猜是哪張（還有張是我自己用 AI 出的圖）？這類氛圍圖主要傳達大緻的感覺，細節倒不那麽重要。

Jim

我傾向于在 3 和 4 裏面挑選。雖然我認爲 4 确實有些冗餘的地方，AI 出圖也很容易有畫面髒的感覺，但我還是堅持 4 是人畫的吧。

正确答案是 2。1 和 4 出自我比較喜歡的 AI 創作者，氛圍感很棒（圖一：小紅書 @ZhouPengART，圖四：小紅書 @靈言 -01）。其實 2 雖然是人畫的，但裏面也有不少小細節處理得不夠好。不過作爲氛圍圖而言，已經能夠傳遞出大部分感受，這種就沒要去解讀類似筆觸等每個細節。

編輯補充：現場觀衆正确率不足 30%

我這裏四組圖片對應的是不同主題，但不一定是一張人工、一張 AI，可以猜猜看。

1. 左上 - 真人題材組

我覺得 2 是生成的，它的頭發和五官有一點機器的影子在裏面；1 我感覺像是真人照修片。

其實 1 是 AI 生成，2 是真人，現在很多真人照片還挺難區分的。

2. 右上 -2D 題材組

這裏 1 是 AI 畫的，2 是真人。與寫實照片相比， AI 會更擅長把一些邏輯性的細節添加在作品裏，但是如果在寫實照片裏有太多元素就很可能出現細節問題。

3. 左下 - 創造性題材組

這組兩張都是 AI 畫的。它們的作者很擅長用 AI 進行世界觀創作，你很難直接通過内容去反推 prompt，複刻的難度很大。

4. 右下 -3D 渲染組

Angel

我猜左邊的是 AI，因爲它光影上比較假，太理性了。

對，以及左邊的圖會有細節冗餘，比如頭上的線，沒有太多意義。

青柑

我之前也有過美術經曆，最初 AI 出來的時候我是自愧不如的，而這幾張圖不管是對于事情本身的表達，還是對于設計的感受，都讓我印象深刻，可以猜猜哪一張是人畫的。

答案是 4，我們也一直在探索 AI 表現出的氛圍、意境，在插畫領域能否有足夠好的表現。如果再稍微修一下圖，就更難準确的去判斷了。

我這裏隻有一張是人畫的，都是二次元、卡通風格的人物角色。

我猜是 4，主要是人物細節從設計上看比較符合邏輯性。比如左邊角色腳下并不是沒畫好的陰影，而是穿的冰靴。

Angel

對，答案是 4。

董晶晖 Jim 分享：AI 出圖管線探索

我本職是參與《使命召喚》系列的 UI 開發，個人平常在用 Midjourney、Stable Diffusion 進行角色和世界觀搭建的創作。盡管我并不是直接的美術崗，但設計都有相通性，都在用不同工具去解決問題滿足需求。那今天我的分享就從如何用 AI 工具進行角色設計、尋找合适的管線展開，希望對大家有啓發。

（小紅書 @Jim Huihui）

我将以近期在探索的 S 項目（個人 AIGC 作品）爲例，希望既能通過 AI 工具創作出新的視覺元素，整條管線也能滿足角色的設計需求。

在開始前，我們首先需要了解所使用的工具，關于 Midjourney，有四個特點想跟大家分享：

1. 第一，它擁有強大的素材庫，也可以說它擁有強大的模型，某種意義上甚至可以把它當成一個圖片搜索工具；

2. 第二，它具有很強的藝術風格模仿能力，對比 SD 必須訓練模型或者 Lora，MJ 能在相同資源前提下表現更佳。

3. 第三是關于 MJ 的劣勢，它很難保證出圖一緻性，尤其是以工業标準去審視時；

4. 第四是無法避免的 Prompt 污染，多個提示詞間可能相互影響，比如輸入紅色的衣服、藍色的天空，出圖可能變成藍色的衣服和紅色的天空。

具體來說，我希望通過 S 項目達成以下的設計目标：

1. 避免開盲盒的出圖流程，提高出圖率，在個人使用時反複修改提示詞或出圖，固然能在幾十張裏面找到一兩張滿意的，但這種開盲盒流程一是不能到達工業管線要求，二是容易造成注意力分散，沉浸于開盲盒的眩暈中；

2. 找到穩定出圖流程，當我有新需求時，當前的流程不需要進行大的修改，隻需要做細微調整，這也是 AI 工具達到工業标準的目标之一；

3. 我希望設計需求優先級更高，不能因爲 AI 限制而妥協；當 AI 工具無法實現需求時，不應該因此調整需求；同時也是在探索 AI 工具的上限；

4. 盡可能保證出圖一緻性，盡管對比于 SD，一緻性并不是 MJ 所擅長的，但我還是希望盡可能達到這樣的目标。

接下裏，我介紹一下希望設計出的人物形象：

她是一個擅長在雨天進行任務的殺手，擅長使用各種自制武器，這些武器日常僞裝會被成工具甚至玩具；她的外在形象不具有威脅性，以便降低目标的警覺性，但實際卻有強大的行動力和攻擊性。

基于此我提煉出三個關鍵詞：殺手、反差、雨水。

接下來是我的出圖流程，總體可以分爲四個步驟：

1. 第一步我稱爲 0.5 版本，主要是收集素材。

因爲這個人物喜歡在雨天出擊，所以我着重收集了雨衣或是防水材質衣服的素材；同時我希望它的造型不僅具備功能性，也具備一定的裝飾性，所以也收集了類似雨衣設計的時尚領域素材。

同時，我會盡可能的收集現實中的真實照片。主要是因爲，第一，素材需要盡可能高質量、高分辨率；第二，我想避免使用其他美術已經出現的出圖或設計，在最早期我不想引入他人的美術風格、設計特點到管線内。

最後是盡可能收集全身圖素材，這對于生成全身像的人物設計比較重要。

2. 0.8 版本使用 MJ Blend 出圖，找到貼近目标的設計。

之所以使用 Blend 模式，主要是因爲更能掌握變量，可以比對 A+B 和 A+C 提示詞下的出圖結果；而 Imagine 模式下，爲了達到設計需求勢必會加入多個提示詞，這樣就很難通過排除或添加某一個提示詞來清晰的知道影響，容易陷入多樣性有限的集合；

且 Blend 也可以通過限制 Prompt 數量來減少提示詞污染。我不需要像 Imagine 模式裏用最仔細清晰的提示詞描述設計細節，避免不必要的元素引入或者冗餘信息。

最後我選擇了一些帶有符合需求方向的設計元素的出圖，比如衣服貼近防水材質、具備寬大和半透明的袖子、運動服、人物全身像等。

3. 0.9 版本使用 MJ Imagine，試圖達到穩定、一緻的風格和成果。

以上一步的素材作爲引子，再添加關于細節和藝術風格相關的提示詞。我把藝術風格提示詞作爲提升一緻性的工具，可以通過 Describe 功能去找一些認爲不錯的藝術風格素材。

4. 1.0 版本最終在 Photoshop 處理圖片，加入元素和細節，把同樣用 AI 生成的武器和道具最後添加到素材當中，完成基本人物出圖。

可以看到在這個效果圖中，人物的衣服材質接近于雨衣，具有寬大的袖子，戴着戰術手套；在左邊也可以看到他們的武器，有匕首氣釘槍以及裝有腐蝕液的水槍，主要用于刺殺過程中的攻擊，以及刺殺結束後逃離。人物的衣服款式、材質、武器裝備等都比較符合最初的雨中殺手設定。

5. 回顧整個管線，我着重想解決的就是 Prompt 污染問題和一緻性問題，但離工業化水平仍有差距。且目前存在難以生成手持武器或裝備狀态的人物，面部風格也很難做到完全一緻。

基于上述流程可以總結出關于 AI 畫圖工具的四點闡述：

多樣性：可以從藝術風格和生成元素兩個維度探索，但會受到模型限制；

一緻性：目前很難達到工業标準的一緻性，設計需求的複雜性和出圖一緻性成反比，盡管像 SD 有提供強大插件試圖解決，但目前最有效的方式仍是能通過大量的素材訓練解決，甚至一個模型隻服務于一個角色。在這種情況下，反而是工業級别的團隊才有能力去進行操作。

可控性：工具可控部分有限但發展迅速，對用戶愈發友好；不管是閉源還是開源的 AI 工具，勢必要有更多對用戶友好的接口，才能讓大家更好的去使用和去了解；

創造性：産出率決定于使用者的方式和創造性，我希望能用大家更爲熟悉的元素和文化作爲基礎，創造新的視覺元素，創造出讓人熟悉、但是又新穎的體驗，創造出符合我們感同身受的形象，甚至是 IP。

最後總結：

AI 爲行業整體帶來的正面影響大于負面。從工程學的角度來說，我們還沒有将 AI 工具發揮到極限，如同最初的攝影師隻追求還原真實，我們還處于新技術的眩暈當中，我希望我們能創造出讓大家 " 熟悉又新穎 " 的事物。

Tiamat 青柑分享：模型層面的技術發展

關于 Tiamat：

我們最早在 22 年 3 月份開始在小紅書上發布模型生成的結果，比 DellE 2 和 MJ 公測都稍早，包括 Tiamat 這個名字都是最早期我們核心的、幫助我們測試模型和反饋數據的用戶一起投票投出來的。我們也比較了解和支持開源生态，且非常相信開源生态會帶給整個行業變革。

目前公司産品有三個，一是更加專業的網頁版 Tiamat，二是小程序版本，三是 QQ 頻道版本。我們希望做最有溫度、最親民的 AI。

關于工作流：

我對于遊戲立繪方面很感興趣，公司也做了不少落地的項目，在這以角色設計爲例講一下我們的工作流。其實像 Jim 老師剛才出的那種設計稿離實際遊戲内還有一段距離，在我們接觸的案例中，通常是已經做好了設計草圖，在得知角色的形象細節、衣服材質、整體設計觀感等要素後，我們要做的是産生實際可上線遊戲的素材圖。

用 Tiamat 生成角色剪影

在有了設計稿後，我們主要關注剪影和遊戲設定的感官是否一緻，比如這張立繪是一個站立的角色，有倒梯形的剪影，這裏不太關注角色每個設計元素是否準确，而是先定草圖。

此外還要注意版權問題，所有東西都是從零生成，或是基于客戶給的内部素材。

人工調整

在生成剪影的基礎上，我們需要人工将相關素材貼上剪影，此時有很多設計細節仍需要人工調整，包括材質、光影等，這一步最後的質量需要達到一般二遊首頁立繪的水平。

Jim 老師剛才說的一緻性問題現在就暴露出來了，比如我現在做出來一張角色階段一，當他變爲階段二時，我要怎麽樣保證他的臉、氣質等設計都不變。目前解決方案仍主要靠摳圖換臉，哪怕相關元素已經設計好了，要做成實際使用的産品都需要先用 AI 從零生成一個剪影，人手去把元素貼上去，再去用類似的技術生成出圖，最後再調整面部、飾品、材質等細節。

盡管經曆了上述一個不短的路徑，生成的立繪依舊不能過于複雜，如果設計元素過多，AI 仍無法很好地處理。

關于創作中的問題 :

AI 缺乏聯想能力

我們比較專攻二次元遊戲，而二遊角色的魅力非常依賴設計細節、人物背景、世界觀設定，而 AI 還不能完全理解這些内容。比如上圖中的牧師形象，她背後的天平、小樹枝等元素來自于人拿到素材或設計要求後大腦展開的聯想。而 AI 目前的聯想觸手範圍不足，很難從零到一的把這些步驟做好，也沒有辦法做精細的聯想。

技術上有局限

在技術細節上，存在圖像細節充分，但并不代表它的單圖像素足夠高，就算訓練素材高清、高像素，出圖卻不一定有充分的細節、并且滿足項目需要的像素清晰度。

背景圖類美宣實現落地

AI 作爲一個輔助工具，在幫助快速将設計好的元素、有意思的設計落地上，已經是打通了的。在遊戲領域，背景圖類美宣已經能實現不錯的效果，相比于對角色形象的高敏感度，人類對背景圖的關注沒那麽強。接下來我們會着重在設計審美和想象力本身的工作上下功夫。

南瓜分享：小團隊怎麽樣用 AI

我主要是以遊戲制作人的身份展開，更偏向于前期概念跟企劃上面。我們社團在 AI 美術上貫徹的觀點是：使用 AI 作爲工具，但我們不要變成 AI 的工具。AI 對于我來說是作爲傳遞感受的工具，哪怕細節上存在錯誤，但其他崗位的同學可以直觀的了解我想要的感受，如果隻讀文字的話，不同人腦内産生的畫面可能會有比較大誤差。相比于以前策劃案上可能出現的 " 靈魂繪圖 "，現在 AI 已經能傳遞出理想的氛圍感。

将 AI 應用在背景說明上，既可以避免前面提到的問題，又能最大化發揮作用。作爲概念設計圖，傳遞感受就是目的，隻有到了真正的遊戲立繪上，細節才會變成目的。氛圍圖就是傳遞感受的，圖像裏面所有的信息都是配角，作爲概念設計圖，有八根手指也不會影響它氛圍是那樣的。但落地到真正的遊戲立繪上，隻有細節畫的很好玩家才願意氪金，這點我們覺得目前的功能還差的蠻遠。

推薦一個我認爲目前已經不錯的落地場景：AI 插畫。比如 B 站上有小說音頻會配一些 AI 的插圖，盡管插圖和小說内容可能不太相關，但讀者的主要注意力并不在圖片上，主要是配合文字傳遞氛圍，而如果請畫師去畫一套，成本将非常高。

以我們制作的一個 Demo 爲例，早期 Demo 的人員、資金投入非常有限，而現在各個工種非常細分，對于小團隊更是容易出現人員上的捉襟見肘。

當時我們想做一個網絡迪廳感的 Demo，而這種會非常依賴場景和特效。但這個背景裏所有的人物、場景、小的光影效果其實都是 AI 做的，我們隻投入了兩三個人，總共用時不到四小時，其中 AI 工具上花了兩、三個小時。當後續專業的場景、美術同學接入後，會對後續方向有感知，而不是面對一張白紙或三次元參考圖，節省了大量讨論和叠代成本。

我們幾個初始做 demo 的同學使用 AI 作爲工具生成一些我們認爲很對的方向和效果，它生成的質量在該時間段是不重要的，而是傳遞出我們未來會有一堆觀衆、在一個這樣子的地方，再通過一些語言描述或者配圖配置，新進來的同學就能快速了解方向。

我的那套管線在探索上前前後後花了有一周多，但是流程找到後出圖達到人物效果大概也是幾小時左右。

ROSA

Jim 老師有提到您那一套管線其實更适合大公司去做，一個模型隻産出一個角色，爲什麽會有這個觀點？

我在解決一緻性問題時，發現當使用很多素材去訓練其實是能達到一定的精準度。而公司它本身有自己的素材庫，完全有條件、有資源、有成本去承擔針對角色的訓練。但面對創造新内容的場景時，大量素材就不一定完全适用了。類似南瓜老師的思路，我們不要指望 AI 一勞永逸的出圖直接用，而是作爲輔助工具，針對不同的場景去使用，這個才是目前對于大部分個人或者團隊來說更好的思維方向。

有沒有可能把您那套管線像咱們傳統開發的時候進行分拆，比如說草稿、三視圖、以及後續物件角色的細化，讓不同的同學幫你一起完成。

我覺得可以，但目前較難實現，因爲會涉及到一緻性問題。但如果隻是作爲出發點，展示表達設計需求、設計邏輯和元素，其實目前是可以的。之前提到的人物拿武器或不同姿勢的狀态圖、服飾道具、面部等方面進行細化擴展。

北美遊戲行業的 AI 使用情況

成志

我們對北美遊戲行業的印象更多是偏成熟的、工業化的項目，對穩定性要求都更高，同時北美也是 AI 可能更加發達，讨論熱度更高的一個地區，那實際上大家從業者或公司之間有沒有在用這些工具？

各大公司一直在關注，但讓 AI 落地于管線還需要時間。對于成熟的管線來說，我們希望有達到當前标準、直接應用的工具，另一個讓人哭笑不得的事實是，當有大量的素材去訓練時，其實往往有成本更低的管線去達到相同的目的。對于公司層面來說是處于保持探索和觀望的态度。

從個人的角度，北美有大量的 AI 開發者、創作者。他們很喜歡用 AI 去構建虛拟世界，不隻專注于人物形象本身，我自己也希望不是隻專注單張的的出圖，而是處于一個大世界觀的框架裏。

Angel 分享：資深美術怎麽用 AI

我覺得 AI 可以把一些想象中很飄渺的東西變得比較落地，能夠幫你把設計的想象邊際拉的更寬。

我曾經有很多特别牛的想法卻因爲能力不足難以表達出來，比如說我想做鑽石頭發、黑膠裙子，這種基本要把技法練到最厲害才可能把想法落地。但 AI 不需要可以幫助減少這種顧慮，所有天馬行空的想法都可以先用 AI 嘗試制作。

我個人的使用流程中，人工調整的這個時間跟自己繪畫的時間相比其實差别不大。如果隻基于 AI 成品調整，反而容易被它束縛。所以一般是調整角色光影、創意廣度等情況下會用到 AI，接下來還是以手繪爲主，或是先丢進 AI 渲染看看參考效果。

發行視角：AI 能否助力發行

對于普羅大衆而言，是不是也可以開發出某種工具，尤其二次元産品講究同人氛圍，大家能更好的生成自己想象中的 OC。比如想給我們喜歡的遊戲做一套漫畫，現在是可以落地的嗎？

目前讓漫畫從業者來看是不夠的，但如果隻是自己玩 OC、四格漫畫類是可以的。雖然一緻性還不強但也夠用。四格漫畫對于分鏡的要求很高，AI 還沒有在這方面做專門優化。

技術側的探索方向

接下來這一年你覺得 AI 作畫會朝什麽方向發展，學術上在探索什麽？

一是更多模态的輸入帶來的控制，二是更精确的文本控制。

目前 AI 在控制生成内容上的能力并不強，主要是跟數據集和訓練方法有關，CLIP 技術是 OpenAI 的，但開源出來的不是完整版，基于此做的文本圖像配對可控性肯定不如 DellE 3，基于此延展出兩個可能的方向：一是把語言的精細控制做到最強，同時打通視覺模型，把 AI 當作乙方，不斷的修改生成結果。

二是在圖片輸入側增加更多模态的輸入，就像剛才 Jim 老師提的爲什麽第一步用 blend 而不是 Imagine，就是希望用圖片自帶的信息去生成。

控制變得更加精細，其實變相把不同人使用工具的差距拉開了。我們都還處于技術最早的探索階段，但如果它要上升成工具，人參與的程度要變得更重。隻有人與人之間使用工具的能力拉開很明顯差距，它才能幫助我們去做更好的創作和設計。

但最後，非常精細的控制是不是創作者所需要的呢？因爲文字的模糊性可以帶來想象力，這也是爲什麽最早文生圖能火的很快，讓每個人都能把自己的創意表達出來。帶有一定模糊性的 Midjourney 把審美做的很好，又富有想象力，所以它的社區氛圍也好，大家用它的動力很強。

注：以上内容僅代表嘉賓個人觀點，不形成任何普适性結論。