前言
2023 年,生成式人工智能的浪潮席卷全球,AI 繪畫憑借着快速的出圖和易上手的使用,迅速掀起了大範圍的讨論和實踐。生産工具端,我們看到 Open AI 的 DALL · E 每天平均生成超兩百萬張圖像,也看到 Midjourney 憑借 11 人的團隊打造了千萬用戶量級社區;在用戶體驗端,既有《太空歌劇院》在藝術領域嶄露頭角,也有不少類似無盡的三月七的整活體驗。
今天我們邀請到了 Infinity Ward Lead UI Engineer 董晶晖、Tiamat 創始人青柑、星引擎社團遊戲設計師南瓜 & 資深美術 Angel,一起來探讨 AI 能生成有趣的創作風格和元素嗎?
董晶晖:Infinity Ward Lead UI engineer,參與開發《使命召喚:現代戰争 2》、《使命召喚:現代戰争》、《使命召喚:戰區》、《使命召喚:二戰》和《Skylander Battlecasters》,同時個人專注 AIGC 創作,喜好探索不同的可能性,着迷于視覺元素和表達;
青柑:Tiamat 創始人,相信科技和創意結合的浪漫,随時期待 AI 的新可能;
南瓜:星引擎社團遊戲設計師,曾參與制作《幻想計劃》《交響星輝》《星引擎 Party》;
Angel:星引擎社團資深美術設計師,曾參與制作《仙劍 OL》《龍之谷 2》《交響星輝》《星引擎 Party》。
成志 &ROSA:主持人,AI+ 遊戲市場觀察者,GameTrigger 投資副總裁
他們探讨的話題包括但不限于:
AI 和人工作畫有哪些區别?
AI 繪畫的出圖管線探索
AI 目前已經可以助力大型遊戲開發了嗎?
AI 繪畫如何助力小團隊開發?
AI 繪畫想融入開發管線面臨哪些挑戰?
模型層面有哪些技術探索?
我們将他們的部分讨論整理成文,期待能帶來新的思考和啓發,Enjoy~
圖靈測試:辨别 AI 作畫
南瓜
我挑了些偏氛圍感的插畫,但裏面隻有一張是人畫的,猜一猜是哪張(還有張是我自己用 AI 出的圖)?這類氛圍圖主要傳達大緻的感覺,細節倒不那麽重要。
Jim
我傾向于在 3 和 4 裏面挑選。雖然我認爲 4 确實有些冗餘的地方,AI 出圖也很容易有畫面髒的感覺,但我還是堅持 4 是人畫的吧。
正确答案是 2。1 和 4 出自我比較喜歡的 AI 創作者,氛圍感很棒(圖一:小紅書 @ZhouPengART,圖四:小紅書 @靈言 -01)。其實 2 雖然是人畫的,但裏面也有不少小細節處理得不夠好。不過作爲氛圍圖而言,已經能夠傳遞出大部分感受,這種就沒要去解讀類似筆觸等每個細節。
編輯補充:現場觀衆正确率不足 30%
我這裏四組圖片對應的是不同主題,但不一定是一張人工、一張 AI,可以猜猜看。
1. 左上 - 真人題材組
我覺得 2 是生成的,它的頭發和五官有一點機器的影子在裏面;1 我感覺像是真人照修片。
其實 1 是 AI 生成,2 是真人,現在很多真人照片還挺難區分的。
2. 右上 -2D 題材組
這裏 1 是 AI 畫的,2 是真人。與寫實照片相比, AI 會更擅長把一些邏輯性的細節添加在作品裏,但是如果在寫實照片裏有太多元素就很可能出現細節問題。
3. 左下 - 創造性題材組
這組兩張都是 AI 畫的。它們的作者很擅長用 AI 進行世界觀創作,你很難直接通過内容去反推 prompt,複刻的難度很大。
4. 右下 -3D 渲染組
Angel
我猜左邊的是 AI,因爲它光影上比較假,太理性了。
對,以及左邊的圖會有細節冗餘,比如頭上的線,沒有太多意義。
青柑
我之前也有過美術經曆,最初 AI 出來的時候我是自愧不如的,而這幾張圖不管是對于事情本身的表達,還是對于設計的感受,都讓我印象深刻,可以猜猜哪一張是人畫的。
答案是 4,我們也一直在探索 AI 表現出的氛圍、意境,在插畫領域能否有足夠好的表現。如果再稍微修一下圖,就更難準确的去判斷了。
我這裏隻有一張是人畫的,都是二次元、卡通風格的人物角色。
我猜是 4,主要是人物細節從設計上看比較符合邏輯性。比如左邊角色腳下并不是沒畫好的陰影,而是穿的冰靴。
Angel
對,答案是 4。
董晶晖 Jim 分享:AI 出圖管線探索
我本職是參與《使命召喚》系列的 UI 開發,個人平常在用 Midjourney、Stable Diffusion 進行角色和世界觀搭建的創作。盡管我并不是直接的美術崗,但設計都有相通性,都在用不同工具去解決問題滿足需求。那今天我的分享就從如何用 AI 工具進行角色設計、尋找合适的管線展開,希望對大家有啓發。
(小紅書 @Jim Huihui)
我将以近期在探索的 S 項目(個人 AIGC 作品)爲例,希望既能通過 AI 工具創作出新的視覺元素, 整條管線也能滿足角色的設計需求。
在開始前,我們首先需要了解所使用的工具,關于 Midjourney,有四個特點想跟大家分享:
1. 第一,它擁有強大的素材庫,也可以說它擁有強大的模型,某種意義上甚至可以把它當成一個圖片搜索工具;
2. 第二,它具有很強的藝術風格模仿能力,對比 SD 必須訓練模型或者 Lora,MJ 能在相同資源前提下表現更佳。
3. 第三是關于 MJ 的劣勢,它很難保證出圖一緻性,尤其是以工業标準去審視時;
4. 第四是無法避免的 Prompt 污染,多個提示詞間可能相互影響,比如輸入紅色的衣服、藍色的天空,出圖可能變成藍色的衣服和紅色的天空。
具體來說,我希望通過 S 項目達成以下的設計目标:
1. 避免開盲盒的出圖流程,提高出圖率,在個人使用時反複修改提示詞或出圖,固然能在幾十張裏面找到一兩張滿意的,但這種開盲盒流程一是不能到達工業管線要求,二是容易造成注意力分散,沉浸于開盲盒的眩暈中;
2. 找到穩定出圖流程,當我有新需求時,當前的流程不需要進行大的修改,隻需要做細微調整,這也是 AI 工具達到工業标準的目标之一 ;
3. 我希望設計需求優先級更高,不能因爲 AI 限制而妥協;當 AI 工具無法實現需求時,不應該因此調整需求;同時也是在探索 AI 工具的上限;
4. 盡可能保證出圖一緻性,盡管對比于 SD,一緻性并不是 MJ 所擅長的,但我還是希望盡可能達到這樣的目标。
接下裏,我介紹一下希望設計出的人物形象:
她是一個擅長在雨天進行任務的殺手,擅長使用各種自制武器,這些武器日常僞裝會被成工具甚至玩具;她的外在形象不具有威脅性,以便降低目标的警覺性,但實際卻有強大的行動力和攻擊性。
基于此我提煉出三個關鍵詞:殺手、反差、雨水。
接下來是我的出圖流程,總體可以分爲四個步驟:
1. 第一步我稱爲 0.5 版本,主要是收集素材。
因爲這個人物喜歡在雨天出擊,所以我着重收集了雨衣或是防水材質衣服的素材;同時我希望它的造型不僅具備功能性,也具備一定的裝飾性,所以也收集了類似雨衣設計的時尚領域素材。
同時,我會盡可能的收集現實中的真實照片。主要是因爲,第一,素材需要盡可能高質量、高分辨率;第二,我想避免使用其他美術已經出現的出圖或設計,在最早期我不想引入他人的美術風格、設計特點到管線内。
最後是盡可能收集全身圖素材,這對于生成全身像的人物設計比較重要。
2. 0.8 版本使用 MJ Blend 出圖,找到貼近目标的設計。
之所以使用 Blend 模式,主要是因爲更能掌握變量,可以比對 A+B 和 A+C 提示詞下的出圖結果;而 Imagine 模式下,爲了達到設計需求勢必會加入多個提示詞,這樣就很難通過排除或添加某一個提示詞來清晰的知道影響,容易陷入多樣性有限的集合;
且 Blend 也可以通過限制 Prompt 數量來減少提示詞污染。我不需要像 Imagine 模式裏用最仔細清晰的提示詞描述設計細節,避免不必要的元素引入或者冗餘信息。
最後我選擇了一些帶有符合需求方向的設計元素的出圖,比如衣服貼近防水材質、具備寬大和半透明的袖子、運動服、人物全身像等。
3. 0.9 版本使用 MJ Imagine,試圖達到穩定、一緻的風格和成果。
以上一步的素材作爲引子,再添加關于細節和藝術風格相關的提示詞。我把藝術風格提示詞作爲提升一緻性的工具,可以通過 Describe 功能去找一些認爲不錯的藝術風格素材。
4. 1.0 版本最終在 Photoshop 處理圖片,加入元素和細節,把同樣用 AI 生成的武器和道具最後添加到素材當中,完成基本人物出圖。
可以看到在這個效果圖中,人物的衣服材質接近于雨衣,具有寬大的袖子,戴着戰術手套;在左邊也可以看到他們的武器,有匕首氣釘槍以及裝有腐蝕液的水槍,主要用于刺殺過程中的攻擊,以及刺殺結束後逃離。人物的衣服款式、材質、武器裝備等都比較符合最初的雨中殺手設定。
5. 回顧整個管線,我着重想解決的就是 Prompt 污染問題和一緻性問題,但離工業化水平仍有差距。且目前存在難以生成手持武器或裝備狀态的人物,面部風格也很難做到完全一緻。
基于上述流程可以總結出關于 AI 畫圖工具的四點闡述:
多樣性:可以從藝術風格和生成元素兩個維度探索,但會受到模型限制;
一緻性:目前很難達到工業标準的一緻性,設計需求的複雜性和出圖一緻性成反比,盡管像 SD 有提供強大插件試圖解決,但目前最有效的方式仍是能通過大量的素材訓練解決,甚至一個模型隻服務于一個角色。在這種情況下,反而是工業級别的團隊才有能力去進行操作。
可控性:工具可控部分有限但發展迅速,對用戶愈發友好;不管是閉源還是開源的 AI 工具,勢必要有更多對用戶友好的接口,才能讓大家更好的去使用和去了解;
創造性:産出率決定于使用者的方式和創造性,我希望能用大家更爲熟悉的元素和文化作爲基礎,創造新的視覺元素,創造出讓人熟悉、但是又新穎的體驗,創造出符合我們感同身受的形象,甚至是 IP。
最後總結:
AI 爲行業整體帶來的正面影響大于負面。從工程學的角度來說,我們還沒有将 AI 工具發揮到極限,如同最初的攝影師隻追求還原真實,我們還處于新技術的眩暈當中,我希望我們能創造出讓大家 " 熟悉又新穎 " 的事物。
Tiamat 青柑分享:模型層面的技術發展
關于 Tiamat:
我們最早在 22 年 3 月份開始在小紅書上發布模型生成的結果,比 DellE 2 和 MJ 公測都稍早,包括 Tiamat 這個名字都是最早期我們核心的、幫助我們測試模型和反饋數據的用戶一起投票投出來的。我們也比較了解和支持開源生态,且非常相信開源生态會帶給整個行業變革。
目前公司産品有三個,一是更加專業的網頁版 Tiamat,二是小程序版本,三是 QQ 頻道版本。我們希望做最有溫度、最親民的 AI。
關于工作流:
我對于遊戲立繪方面很感興趣,公司也做了不少落地的項目,在這以角色設計爲例講一下我們的工作流。其實像 Jim 老師剛才出的那種設計稿離實際遊戲内還有一段距離,在我們接觸的案例中,通常是已經做好了設計草圖,在得知角色的形象細節、衣服材質、整體設計觀感等要素後,我們要做的是産生實際可上線遊戲的素材圖。
用 Tiamat 生成角色剪影
在有了設計稿後,我們主要關注剪影和遊戲設定的感官是否一緻,比如這張立繪是一個站立的角色,有倒梯形的剪影,這裏不太關注角色每個設計元素是否準确,而是先定草圖。
此外還要注意版權問題,所有東西都是從零生成,或是基于客戶給的内部素材。
人工調整
在生成剪影的基礎上,我們需要人工将相關素材貼上剪影,此時有很多設計細節仍需要人工調整,包括材質、光影等,這一步最後的質量需要達到一般二遊首頁立繪的水平。
Jim 老師剛才說的一緻性問題現在就暴露出來了,比如我現在做出來一張角色階段一,當他變爲階段二時,我要怎麽樣保證他的臉、氣質等設計都不變。目前解決方案仍主要靠摳圖換臉,哪怕相關元素已經設計好了,要做成實際使用的産品都需要先用 AI 從零生成一個剪影,人手去把元素貼上去,再去用類似的技術生成出圖,最後再調整面部、飾品、材質等細節。
盡管經曆了上述一個不短的路徑,生成的立繪依舊不能過于複雜,如果設計元素過多,AI 仍無法很好地處理。
關于創作中的問題 :
AI 缺乏聯想能力
我們比較專攻二次元遊戲,而二遊角色的魅力非常依賴設計細節、人物背景、世界觀設定,而 AI 還不能完全理解這些内容。比如上圖中的牧師形象,她背後的天平、小樹枝等元素來自于人拿到素材或設計要求後大腦展開的聯想。而 AI 目前的聯想觸手範圍不足,很難從零到一的把這些步驟做好,也沒有辦法做精細的聯想。
技術上有局限
在技術細節上,存在圖像細節充分,但并不代表它的單圖像素足夠高,就算訓練素材高清、高像素,出圖卻不一定有充分的細節、并且滿足項目需要的像素清晰度。
背景圖類美宣實現落地
AI 作爲一個輔助工具,在幫助快速将設計好的元素、有意思的設計落地上,已經是打通了的。在遊戲領域,背景圖類美宣已經能實現不錯的效果,相比于對角色形象的高敏感度,人類對背景圖的關注沒那麽強。接下來我們會着重在設計審美和想象力本身的工作上下功夫。
南瓜分享:小團隊怎麽樣用 AI
我主要是以遊戲制作人的身份展開,更偏向于前期概念跟企劃上面。我們社團在 AI 美術上貫徹的觀點是:使用 AI 作爲工具,但我們不要變成 AI 的工具。AI 對于我來說是作爲傳遞感受的工具,哪怕細節上存在錯誤,但其他崗位的同學可以直觀的了解我想要的感受,如果隻讀文字的話,不同人腦内産生的畫面可能會有比較大誤差。相比于以前策劃案上可能出現的 " 靈魂繪圖 ",現在 AI 已經能傳遞出理想的氛圍感。
将 AI 應用在背景說明上,既可以避免前面提到的問題,又能最大化發揮作用。作爲概念設計圖,傳遞感受就是目的,隻有到了真正的遊戲立繪上,細節才會變成目的。氛圍圖就是傳遞感受的,圖像裏面所有的信息都是配角,作爲概念設計圖,有八根手指也不會影響它氛圍是那樣的。但落地到真正的遊戲立繪上,隻有細節畫的很好玩家才願意氪金,這點我們覺得目前的功能還差的蠻遠。
推薦一個我認爲目前已經不錯的落地場景:AI 插畫。比如 B 站上有小說音頻會配一些 AI 的插圖,盡管插圖和小說内容可能不太相關,但讀者的主要注意力并不在圖片上,主要是配合文字傳遞氛圍,而如果請畫師去畫一套,成本将非常高。
以我們制作的一個 Demo 爲例,早期 Demo 的人員、資金投入非常有限,而現在各個工種非常細分,對于小團隊更是容易出現人員上的捉襟見肘。
當時我們想做一個網絡迪廳感的 Demo,而這種會非常依賴場景和特效。但這個背景裏所有的人物、場景、小的光影效果其實都是 AI 做的,我們隻投入了兩三個人,總共用時不到四小時,其中 AI 工具上花了兩、三個小時。當後續專業的場景、美術同學接入後,會對後續方向有感知,而不是面對一張白紙或三次元參考圖,節省了大量讨論和叠代成本。
我們幾個初始做 demo 的同學使用 AI 作爲工具生成一些我們認爲很對的方向和效果,它生成的質量在該時間段是不重要的,而是傳遞出我們未來會有一堆觀衆、在一個這樣子的地方,再通過一些語言描述或者配圖配置,新進來的同學就能快速了解方向。
我的那套管線在探索上前前後後花了有一周多,但是流程找到後出圖達到人物效果大概也是幾小時左右。
ROSA
Jim 老師有提到您那一套管線其實更适合大公司去做,一個模型隻産出一個角色,爲什麽會有這個觀點?
我在解決一緻性問題時,發現當使用很多素材去訓練其實是能達到一定的精準度。而公司它本身有自己的素材庫,完全有條件、有資源、有成本去承擔針對角色的訓練。但面對創造新内容的場景時,大量素材就不一定完全适用了。類似南瓜老師的思路,我們不要指望 AI 一勞永逸的出圖直接用,而是作爲輔助工具,針對不同的場景去使用,這個才是目前對于大部分個人或者團隊來說更好的思維方向。
有沒有可能把您那套管線像咱們傳統開發的時候進行分拆,比如說草稿、三視圖、以及後續物件角色的細化,讓不同的同學幫你一起完成。
我覺得可以,但目前較難實現,因爲會涉及到一緻性問題。但如果隻是作爲出發點,展示表達設計需求、設計邏輯和元素,其實目前是可以的。之前提到的人物拿武器或不同姿勢的狀态圖、服飾道具、面部等方面進行細化擴展。
北美遊戲行業的 AI 使用情況
成志
我們對北美遊戲行業的印象更多是偏成熟的、工業化的項目,對穩定性要求都更高,同時北美也是 AI 可能更加發達,讨論熱度更高的一個地區,那實際上大家從業者或公司之間有沒有在用這些工具?
各大公司一直在關注,但讓 AI 落地于管線還需要時間。對于成熟的管線來說,我們希望有達到當前标準、直接應用的工具,另一個讓人哭笑不得的事實是,當有大量的素材去訓練時,其實往往有成本更低的管線去達到相同的目的。對于公司層面來說是處于保持探索和觀望的态度。
從個人的角度,北美有大量的 AI 開發者、創作者。他們很喜歡用 AI 去構建虛拟世界,不隻專注于人物形象本身,我自己也希望不是隻專注單張的的出圖,而是處于一個大世界觀的框架裏。
Angel 分享:資深美術怎麽用 AI
我覺得 AI 可以把一些想象中很飄渺的東西變得比較落地,能夠幫你把設計的想象邊際拉的更寬。
我曾經有很多特别牛的想法卻因爲能力不足難以表達出來,比如說我想做鑽石頭發、黑膠裙子,這種基本要把技法練到最厲害才可能把想法落地。但 AI 不需要可以幫助減少這種顧慮,所有天馬行空的想法都可以先用 AI 嘗試制作。
我個人的使用流程中,人工調整的這個時間跟自己繪畫的時間相比其實差别不大。如果隻基于 AI 成品調整,反而容易被它束縛。所以一般是調整角色光影、創意廣度等情況下會用到 AI,接下來還是以手繪爲主,或是先丢進 AI 渲染看看參考效果。
發行視角:AI 能否助力發行
對于普羅大衆而言,是不是也可以開發出某種工具,尤其二次元産品講究同人氛圍,大家能更好的生成自己想象中的 OC。比如想給我們喜歡的遊戲做一套漫畫,現在是可以落地的嗎?
目前讓漫畫從業者來看是不夠的,但如果隻是自己玩 OC、四格漫畫類是可以的。雖然一緻性還不強但也夠用。四格漫畫對于分鏡的要求很高,AI 還沒有在這方面做專門優化。
技術側的探索方向
接下來這一年你覺得 AI 作畫會朝什麽方向發展,學術上在探索什麽?
一是更多模态的輸入帶來的控制,二是更精确的文本控制。
目前 AI 在控制生成内容上的能力并不強,主要是跟數據集和訓練方法有關,CLIP 技術是 OpenAI 的,但開源出來的不是完整版,基于此做的文本圖像配對可控性肯定不如 DellE 3,基于此延展出兩個可能的方向:一是把語言的精細控制做到最強,同時打通視覺模型,把 AI 當作乙方,不斷的修改生成結果。
二是在圖片輸入側增加更多模态的輸入,就像剛才 Jim 老師提的爲什麽第一步用 blend 而不是 Imagine,就是希望用圖片自帶的信息去生成。
控制變得更加精細,其實變相把不同人使用工具的差距拉開了。我們都還處于技術最早的探索階段,但如果它要上升成工具,人參與的程度要變得更重。隻有人與人之間使用工具的能力拉開很明顯差距,它才能幫助我們去做更好的創作和設計。
但最後,非常精細的控制是不是創作者所需要的呢?因爲文字的模糊性可以帶來想象力,這也是爲什麽最早文生圖能火的很快,讓每個人都能把自己的創意表達出來。帶有一定模糊性的 Midjourney 把審美做的很好,又富有想象力,所以它的社區氛圍也好,大家用它的動力很強。
注:以上内容僅代表嘉賓個人觀點,不形成任何普适性結論。