随着讨論熱度逐漸褪去,"AI 繪畫 " 的話題在這段時間似乎已經漸漸不再掀起波瀾,卻已有不少遊戲公司悄無聲息地将 AI 繪畫加入了自己的工作流程中。在探索 AI 繪畫工具化的浪潮中,作為一群繪畫方面的外行人,觸樂也踏出了自己的第一步——在祝佳音老師的指示下,我們正在嘗試使用 AI 繪畫工具生成文章所需的插圖。
文章插圖的版權問題對大部分使用者而言都是個不小的隐患,要想在開源或有版權的圖片網站上為文章找到切合主題的插圖也不是件容易的事。AI 繪畫似乎成了一個不錯的選擇——在我們的想象中,隻要為 AI 提供幾段描述或是關鍵詞,AI 就能 " 讀懂并畫出 " 我們想要的圖片。事實真的如此簡單嗎?為了實現 " 讓 AI 幫我們畫插圖 " 的目标,最大程度上解放勞動力,我們做出了一些嘗試。
畫風、付費、本地化?
要想生成對應風格的插圖,第一步當然是挑選一個合适的模型。AI 繪畫的模型演化進度在最近短短半年間可謂突飛猛進,光是國内外主流模型便已有五六個,各類風格化模型更是百花齊放。不過,要找到一個适合生成文章插圖的模型并不容易。有些模型是開源的,有些需要付費才能使用,有些遊走于法律的灰色地帶,被人破解後偷偷下載……
無論是哪種,總要上手試試才行。我們在最後選擇了 4 種模型作為備選方案:開源後支持本地部署,曾經一度号稱 " 最強繪畫 AI" 的 Stable Diffusion;老牌 AI 研究團隊 OpenAI 旗下最早的幾個圖像生成 AI 之一 DALL · E;架設在 Discord 頻道中,持續更新模型的 Midjourney;以及最後,支持日式畫風的 NovelAI 本地部署版本。
首先必須聲明的是,盡管目前的 AI 繪畫版權問題仍不明朗,但 " 本地部署版 NovelAI" 一定是其中最不靠譜的一個——不提圖片庫的版權問題,模型的來源本身便遊走在法律的灰色地帶。相比起來,本地部署的 Stable Diffusion 則 " 名正言順 " 得多。自 Stable Diffusion 宣布開源之後,在 GitHub 上即可下載 Stable Diffusion 的新舊版本,在本地架設後,借助 WebUI 工具便可以直觀地調整生成圖片的各項參數與圖片預覽。
不過,天下沒有免費的午餐——雖然開源的行為接近于 " 将午餐送到你的嘴裡 ",但運行程序同樣需要有足夠的算力。幾年前還算得上配置不錯的 GeForce RTX 2060 顯卡如今多少有些力不從心。有人曾統計過不同的顯卡利用 Stable Diffusion 模型生成 512 × 512 大小圖像時所耗費的時間,2060 顯卡需要 17 秒,3080 隻需要 7 秒——不一定足夠精準,但也有參考價值。
3080 的用時還不到 2060 的二分之一
當然,實際使用過程中,你會意識到 17 秒隻是一種理想狀況。随着叠代步數的增加、畫幅的調整與生成數量的增多,生成圖片所需的時間幾乎呈指數式上漲。最合理的方式,還是先生成 512 大小的圖片,再通過圖片擴大算法将其放大。即便如此,當你把叠代步數不斷調高,也可能面臨内存溢出的風險。更直觀的感受是,在圖片生成過程中,電腦的風扇聲幾乎沒有停過。
相比起來,另外兩家付費的繪畫 AI —— DALL · E 與 Midjourney 就對電腦顯卡友善得多。它們的圖片生成并不需要你緊張地監控顯卡溫度,防止燒壞,隻需要向它們的服務器發送對應描述詞,服務器便會吐出一組圖片以供用戶選擇。隻是與此相應,每次占用服務器資源生成圖片需要消耗用戶一定量的積分,開始你可以免費試用,試用完每個賬号的免費額度之後,必須得為賬号充值積分才能繼續生成。
一般而言,用一組關鍵字生成 4 張 512 × 512 的例圖大約需要 1 積分。每個繪畫 AI 的積分定價略有差别—— DALL · E 的付費積分相對更貴一些,大約是 15 美元 115 積分,折合人民币大約 1 元生成一次;Midjourney 提供了每月 10 美元約 200 張圖的包月套餐,算下來便宜不少。
不管是 DALL · E、Midjourney 還是 Stable Diffusion,最關鍵的,當然還是圖片生成的質量。我們使用了幾組不同的關鍵詞,測試 AI 們的表現。
描述與關鍵詞
在插圖這方面,相比起精美的 3D 建模圖片或是貼近照片的現實風格圖片,祝佳音老師更加青睐的是手繪雜志插圖風格。但在風格的描述上卻遇見了不少麻煩:該怎樣告訴 AI 我們需要什麼?
一開始,我們嘗試用某一本雜志的刊名籠統地描述它的插圖風格:例如,在關鍵詞裡加上《紐約客》(New Yorker)。問題随之而來:即使在同一本雜志裡,插圖風格并非單一不變。在這一點上,免費的 Stable Diffusion 為我們提供了不少試錯的案例——即便你加入了 " 手繪 "" 無模糊 "" 清晰線稿 " 與藝術家的名字等關鍵詞,繪畫 AI 還是不太明白你究竟想要什麼,隻能一次給你端上來幾張不同風格的圖片任你挑選,你可以看得出來,這些風格确實都曾出現在雜志中。至于是否能夠找到你想要的,就得指望運氣了。
指定的範圍比較寬泛時,Stable Diffusion 會一次生成數張不同風格的圖片
想知道某種具體繪畫風格的名字也不算容易。在大多數情況下,我們想了半天也隻能想出來 " 手繪 " 或是 " 水彩 " 等籠統的描述。好在我們找到了搜索引擎 Lexica,網站上整理了不少描述詞與生成圖片的案例,可以通過文字或是圖片搜索找到你想要的詞彙。
Lexica 上可以搜索到其他用戶分享的案例
不過,Lexica 也并非百試百靈。一方面,如果你瞄準的是不那麼大衆的藝術家,嘗試生成對應風格圖片的用戶不多,能提供的例子也十分有限。另一方面,AI 生成圖片的過程伴随不小的随機性,用戶上傳的圖片與關鍵詞不是每次都足夠準确——上傳的例圖看起來不錯,實際生成時怎麼也跑不出類似的圖片更是常态。
Stable Diffusion 的問題在這裡也漸漸顯露:模型在生成真實照片風格或是細膩的原畫風格上可謂一騎絕塵,特别是更新後的 Stable Diffusion2.1 版本,生成的照片風格圖像幾乎可以以假亂真。但相對應的,當涉及相對平面的藝術風格時,想要生成出合适的圖片,需要做出不少嘗試。
Stable Diffusion 在生成真實照片風格的圖片上做得相當好
生成平面風格的圖像,則需要更多嘗試
當然,描述詞帶來的門檻也是問題之一——任何人在生成圖片的過程中,不斷調整、修正并找到合适的關鍵詞同樣需要時間。從這一點上來說,Stable Diffusion 對零基礎使用者并非那麼友好。如果不細緻調整關鍵詞,直接用自然語言描述想要的圖片,可能需要生成不少圖片才能獲得一張令人滿意的圖像。例如,我們描述了一個具體的場景:" 一個女孩在堆滿了雜物的辦公桌前,桌上的外賣袋和泡面摞得很高,牆上有個日曆,日曆上‘發售日’後面的數字被紅筆劃掉了好幾道。女孩抱着頭,顯得非常痛苦。"
直接将這一整段描述塞給 Stable Diffusion 之後,它展現出了前所未有的疑惑。
如果描述不太準确,Stable Diffsion 生成的圖片并不總能令人滿意
相比起來,付費的 DALL · E 與 Midjourney 模型在經曆了不斷的叠代與調整之後,生成無法使用的 " 廢圖 " 的概率要低得多。在 Midjourney 中使用同一組關鍵詞,隻需要一個簡單的關鍵詞 "by Yuko Shimizu" 來指定畫風,便可得到表現相當不錯的結果。
可以看出,Midjourney 正确理解了 " 外賣盒 ",但對于 " 痛苦的 "(Painful)的理解則有些奇怪
DALL · E 對畫風的理解不太到位,卻正确理解了描述的内容。在數個模型中,DALL · E 描繪的人物情感可謂惟妙惟肖。
DALL · E 将 " 痛苦 " 與 " 雙手抱頭 " 聯系了起來
在生成文章插圖的需求當中,如果考慮實際投入使用,付費的 DALL · E 與 Midjourney 看起來确實是更好的選擇。在風格化插畫方面,Midjourney 的表現又更勝一籌。隻需要幾個關于繪畫風格或作者的關鍵詞,Midjourney 就能很快 " 理解 " 你想要的究竟是什麼。
美式漫畫與故事闆風格
版權,與接下來的麻煩
顯而易見,目前已經有一些繪畫 AI 投入商業運營了,它的用戶中也有一些要将 AI 生成的圖片投入商業使用。既然如此,版權自然是個繞不過去的話題。在這一點上,由于 AI 繪畫領域的發展速度實在太快,總體上,相關的法律法規都沒來得及跟上。目前,大部分 AI 繪畫模型的版權條款都秉承着 " 撒手掌櫃 " 的風格。Midjourney 與 Stable Diffusion 都明确表示,生成圖片的版權将歸于生成者所有,但同時也這樣指出:請勿嘗試創建涉及色情、歧視等可能對他人造成傷害的圖像。如若引起争議,一切職責與平台無關,由争議雙方自行解決。
判定内容是否合法,最後還是落在了具體的作品上。如果是已經不再受到版權法保護的畫家作品(一般是畫家去世 50 年以後),模仿他們的風格進行再次創作當然沒有問題。如果要模仿仍受版權法保護的現代畫家們,便要好好斟酌尺度才行。
Stable Diffusion 生成的梵高風格畫作
盡管在大多數情況下,AI 繪畫并不能完美地生成你所想要的單一風格,看起來更像是多種風格的雜糅,但如果針對某種風格或某一位畫師的作品進行訓練,AI 生成的作品難免會出現跟模仿對象過于相似的問題。在這一點上,主流的幾個大型模型其實都 " 做得不錯 ":即便指定了作者,在 DALL · E 或 Midjourney 中,也很難做到和作者畫得一模一樣。
值得再次強調的是,在最近短短半年的時間裡,AI 繪畫模型的進化速度可謂突飛猛進,但法律法規還沒能趕上這個速度,目前國際上仍不存在對應的法律法規用以規範 AI 繪畫的版權問題。AI 圖像的商業使用仍舊存在一定的風險——當我們向 AI 繪畫平台付費後,平台是否應當為訓練所使用的網絡圖片集付費?
個人使用者面對的問題相對簡單,隻要 AI 繪畫平台不倒打一耙,突然宣稱版權不歸屬于生成者,一般來說在版權上不會出現什麼幺蛾子,尤其是個人非商業的使用,并無太大風險。對借助 AI 工具輔助工作的美術工作者們來說,另一方面的問題是,AI 生成圖像并不一定能被所有受衆接受。幾天前,某款移動端遊戲的宣傳圖片便被懷疑是借助 AI 工具進行了輔助繪畫——背景中的金屬部件很明顯 " 不像是人畫的 "。這件事在玩家間激起了一陣波瀾——一些玩家對此十分失望,在他們看來,"AI 繪畫 " 似乎天然與 " 廉價 "" 不認真 " 等描述挂鈎。
這件事并不是個例,不少遊戲開發者透露,他們已将 AI 繪畫加入自己的工作流,卻不敢将這個事實公之于衆。但從另一個角度出發,如果将 AI 繪畫作為輔助工具,排除訓練庫版權上的隐患問題,它與 Blender、Enscape 等 3D 輔助軟件的差别在哪裡?如果将 AI 繪畫作為圖片素材庫,它與 Unsplash 等無版權素材庫得到的結果又有多大的差别?
無論如何,現在的 AI 繪畫模型确實還不太成熟,但你可以直觀地感受到技術的快速進步——說不定過不了多久,我們真的會使用 AI 生成插圖,那會是更逼真、更像是人畫的插圖,到那時,不知各位讀者是否能發現呢?
Midjourney 生成的 " 手握柯基與蘸醬薯片的教皇 ",看起來真是有模有樣
(本文題圖均由繪畫 AI Midjourney 生成。)