" 人類文明有五千年曆史,地球生命史長達幾十億年,而現代技術是在三百年時間内發展起來的,從宇宙的時間尺度上看,這根本不是什麽發展,是爆炸!"
這段話出自知名科幻作品《三體》,作者劉慈欣以他的 " 技術爆炸 " 理論,引出了三體人與地球人之間的核心矛盾——猜疑鏈,并由此延展出了更多的奇思妙想,編織出了一部壯闊的宇宙史詩。
《三體》的故事發生在近未來,這些天馬行空的科幻概念理應與 2023 年的我們隔着一段遙遠的距離。不過事實是,在過去的半年裏,真正意義上的技術爆炸與猜疑鏈,其實已經悄然而至。一方面,AI 繪畫正在以前所未有的進化速度席卷世界,每隔幾天都會出現全新的技術探索;
另一方面,畫師圈人心惶惶,在集體抵制 AI 的大背景下,誰也不知道屏幕那頭的畫作是否出自 AI 之手。網絡上的 " 賽博獵巫 " 愈演愈烈,AI 與畫師之間的戰争至今仍未平息。
同人二創平台 Lofter 近日上線的 "AI 頭像生成器 " 功能惹惱了大量用戶
AI 繪畫能有如今的成果,很大程度上歸功于去年 8 月大範圍傳播的 SD(Stable Diffusion,穩定擴散模型)的開源屬性,自 SD 公開之後,大量基于該模型的全新 AI 模型應運而生,開放共享的互聯網精神加速了行業的發展進步,用 " 日新月異 " 一詞來描述這個領域的近況再合适不過。
國内知名度較高的 NovelAI 同樣基于 SD 模型
在這股科技浪潮之中,上一次破圈的熱點話題正是半個月前紅極一時的 " 賽博 COSER",當時的 AI 訓練師們模糊了現實與幻想的邊界,以難辨真僞的寫實風格讓一衆網友重新認識到了 AI 的實力。
這其中,科技博主 " 勘雲工造 " 創作的一系列作品尤爲突出,由他訓練而成的 AI COSER 不僅在國内的社交媒體瘋狂刷屏,更在日本引起了熱議,一時之間,AI 繪畫的相關話題再次登上了熱搜,成了每個人都在關注的話題。
勘雲工造的 AI COS 作品在日推引起波瀾
但與此同時,這項新興技術同樣也背負着與生俱來的争議——版權。AI 繪畫不可避免地借鑒了海量畫師苦練多年而成的畫風,未經授權的 AI 訓練總會讓畫師群體産生本能的厭惡與反感。在整個世界建立起一套可供參考的法律标準之前,圍繞着 AI 繪畫數字版權的争議恐怕不會停歇。
現在 AI 繪畫的 " 技術痛點 " 是什麽,今後又該朝着哪個方向發展;AI 作品的版權該怎麽界定, 創作者的權益又要如何保證……在 AI 繪畫相關話題持續霸榜的今天,這些問題成爲了迷霧中的重點。
帶着這些問題,我們采訪到了前文提到的 AI COSER 創作者 " 勘雲工造 ",與他聊了聊 AI 繪畫的現狀與未來。
以下是采訪正文:
遊研社:" 勘雲工造 " 這個賬号現在算是小有名氣了,請問這次火出圈有對自己産生了什麽影響麽?
勘雲工造:感覺有一點責任感了,畢竟我也算傳播推廣者,目前正在編寫 AI 繪畫的教程,隻是寫的東西不如 AI 的技術叠代快。我還打算做一些關于未來前景的分析探讨,很多人擔心的不是科技進步,而是擔心科技進步能否讓他們的生活變得更好,所以我堅持 AI 開源,技術共享。
遊研社:你大概是什麽時候開始關注 AI 繪畫的呢?當時對 AI 繪畫這項新興技術有什麽看法嗎?
勘雲工造:AI 也算是一種技術嘛,隻要是科技相關的内容我都有興趣。我大概是去年三四月份開始接觸 AI 繪畫,當時申請了 DALLE · 2 的試用。那個時候覺得生成類 AI 都挺有意思的,會在未來幾年内改變傳統行業,但沒想到 AI 的進步會這麽快。
OpenAI 于去年 4 月推出的 DALLE · 2,基于擴散模型,自此 text2image(文字轉圖像)技術開始廣爲人知
遊研社:的确,AI 的進步速度遠超大家想象。所以你這段時間在持續不斷地跟進 AI 繪畫技術的進步嗎 ? 還是說中途暫時離開了這個領域?
勘雲工造:我在 NovelAI 推出後暫時放下了相關研究,因爲覺得 AI 的增速太快了,不如等一段時間再看看,說不定我現在花很多時間才能實現的效果過幾個月可以輕松實現。LoRA 推出的時候我感覺機會到了,于是重新返回了這個領域。
LoRA,AI 模型訓練之一,能方便快捷地固定畫風、角色、動作等細節,賽博 COSER 的實現正是基于此技術
遊研社:這些 " 賽博 COSER" 選取的角色是出于興趣,還是有技術上的考量?是否會出現特定角色設計更有辨識度因此更容易生成的情況?
勘雲工造:個人興趣占比較大,從技術上來說也是有挑戰性的,因爲需要針對每個角色訓練單獨的 LoRA 模型,每個模型根據訓練的情況,使用的效果也各不相同,基本上換個模型就要從頭調整參數。由于我訓練的模型比較少,碰到過最難的部分可能還是細節處理方面,比如手指,但是現在已經有新技術保證手指可以不出問題了。
遊研社:在解決了 AI 的 " 一生之敵 " 手指問題之後,今後的 AI 繪畫還可能在哪些有待改善的方向繼續進化?
勘雲工造:主要是三個方向,AI 的基礎性能、可操作性,以及模型訓練方式。
其中,AI 的基礎性能需要等待算法、采樣器的進一步研究發展,畢竟這是 AI 生成圖片的底層原理,能從根本上改變出圖的效果和效率;
可操作性是指找到讓 AI 可以徹底被控制的方法,就像車的方向盤,可操作性不強的話 AI 就隻能停留在随機出圖的玩具層面,沒法加入工業化流程。實際上現在以 Controlnet 爲基礎開發出的很多操作方式都非常牛逼,除了之前的骨骼識别、邊緣檢測、深度檢測等功能,目前最新的 seg 語義控制的表現也很優秀;
新晉 AI 繪畫插件 Controlnet,能大幅優化細節部分的處理與把控,大家普遍認爲這是全新的技術突破
Seg 插件通過色值綁定語義,然後直接在畫面裏構圖來指定不同地方的組成元素。
遊研社:這是否可以理解爲,AI 的下一個進化方向是從娛樂性較強的出圖軟件,變成指向性更高、效率更高的工具?
勘雲工造:AI 本身就應該是工具,沒有人操控的 AI 沒有意義。而且通過構建人機閉環系統,AI 的效率能成倍提高,由 AI 進行重複作業,人來指定總體方向是理想狀态。
遊研社:所以你自己如何看待互聯網上鼓吹的 "AI 即将取代繪畫從業者 " 之類的論調呢?
勘雲工造:AI 不會取代人,隻有人才會取代人。說白了 AI 就是個高級點的 PS。我認爲在 AI 的使用中,人機閉環系統的建立是最重要的過程,哈佛商學院的标志性刊物《哈佛商業評論》近年對大約 1500 家大型企業進行了調研,最後得出的結論是相比于隻靠人或者隻靠 AI,隻有人和 AI 合作才能最大化地提升效率。
2018 年《哈佛商業評論》通過對 12 個行業的 1075 家公司的調查,發現這些公司對 AI 與人類的合作越是重視,他們的工作效率、成本節約、收入或其他運營措施方面的表現就越好
畫師其實才是 AI 的最佳使用者,畫師不但具有長久鍛煉得到的審美,而且可以直接在基于高度定制化生成的圖片上進一步修改,再把修改後的圖片傳回 AI 進行重新生成。AI 的叠代與進化必須要由人類來引導方向,否則無法實現對于人類的價值。
遊研社:但是就如同很多工具一樣,工具的使用方式有時候也會引來争議,例如目前受人追捧的幾個真人模型,由于熱度太高,作者擔心産生法律糾紛,于是幹脆将模型的所有權轉交給了平台方。請問你對 AI 畫真人存在的倫理道德問題以及潛在的違法問題怎麽看?
勘雲工造:AI 畫真人是擺在台面上的違法問題。對于各種犯罪,國家早就有比較周全的規定,比如用 AI 換臉很明顯是侵犯肖像權,這方面可以參考去年國家出台的《互聯網信息服務深度合成管理規定》。
我認爲這個問題的關鍵點不在于真人,而是做出來的人在現實中存不存在。AI 一直都是做寫實風格的,直到去年 NovelAI 開始興起後才有人做二次元,隻做二次元雖然可以規避肖像權風險,但也相當于自斷經脈了。而且做二次元的争議完全不比寫實風格的要少,AI 的問題在于數據來源的合法性,寫實類的數據源是照片,二次元的是畫作,後者在版權上的争議還更大些。
遊研社:AI 繪圖的版權糾紛确實是長期站在風口浪尖的話題,美國版權局在最近明确聲明 AI 制作的圖片不受版權保護,請問這算是爲行業設立了可供參考的法律标準嗎?
勘雲工造:如果使用 PS 制作一張米老鼠的圖片并盈利,迪士尼會起訴圖片的使用者而不是 Adobe 公司,同理如果使用 AI 進行侵權行爲,被侵權者直接起訴圖片的使用者才是合适的做法。
美國版權局近日表示,AI 繪畫工具 Midjourney 制作的一部漫畫中的插圖不受版權保護,因爲作者隻爲 AI 繪畫工具提供文本提示(輸入關鍵字),并非最後生成圖像的 " 主腦 "(Master Mind),不能算是創作者
隻不過,未經授權将他人創作的圖片用于 AI 的 i2i(image2image,圖像轉圖像)這一行爲,需要整個行業的抵制。i2i 洗稿跟用寫實模型換臉其實是同樣的性質,現在很多人指責 AI 抄襲然後放疊圖對比,就是因爲有人用 i2i 來洗稿才會敗壞風氣。有些模型會跑出跟訓練素材一模一樣的圖,實際上這是一種過拟合現象,證明這個模型是失敗的。
i2i 技術會在圖片生成階段疊一張底圖控制 AI 的創作方向,很容易形成相似度過高的 " 抄襲 " 行爲
遊研社:想問問以你的視角來看,距離 AI 具備真正的 " 創造性 " 還有多遠?
勘雲工造:要看怎麽定義創造性了。如果說創造出現實中不存在的東西,比如半貓半狗,AI 很輕松就可以做到;如果說是在藝術上的突破,那 AI 也隻是對作者意識的投射,上限取決于作者的審美,因爲科技進步不會推動審美進步。
遊研社:最後請展望一下 AI 繪畫的前景吧。
勘雲工造:首先,AI 在小說行業可以廣泛使用廉價高質的插畫來提供更具視覺沖擊力的閱讀體驗。讓小說能夠更加全面的滿足讀者的需求,提高文學作品的傳播率;
其次,AI 在動畫和漫畫行業可以優化工作流程,使用 AI 輔助制作原畫和中割。這将顯著減少制作動畫的時間和成本,并爲創作者提供更多的時間去優化故事情節和角色表現,提高作品的質量和文化價值;
另外,AI 在遊戲和電影行業可以輔助制作各種美術資産生成和自動建模,實現高效低費的産出。這将加速遊戲和電影的開發速度,同時也使得更多的遊戲和電影可以被制作和推廣,豐富了人們的文化娛樂生活。
AI 的出現有助于解放人類的創造力,使人們不再受制于資本異化的束縛,更多地關注于個人的興趣和創造力。我認爲在可預見的未來,将會有更多優質文化産品誕生。
結語
采訪結束後,勘雲工造給我們發來了一份 3000 字的文章,詳細闡述了他對 AI 繪畫的見解。受限于篇幅,我們稍作整理,從中挑出了幾條最有價值的觀點。
AI 繪畫的原理:
目前主流的 AI 工具都是基于擴散算法的生成類 AI。在模型訓練階段,AI 會對訓練目标圖片其添加噪點并進行編碼,使作品進入一個 " 圖像信息空間 "。在訓練和生成的過程中,AI 使用擴散概率模型來處理圖片,它的基本原理是通過從若幹随機樣本中學習來生成新的樣本,舉個例子的話,就是在一個裝有很多蘋果的籃子裏随機挑選蘋果,然後再挑選一個比之前更大的蘋果,這個過程重複的越多,你挑出籃子中最大蘋果的概率也就越高。
不同于人類作畫的起點是從無到有,即逐漸增加顔色形成圖像。AI 作畫是從有到無,從一個由噪點組成的圖像中不斷去掉無關的噪點,定向降噪直至保留最終目标圖像的過程。
擴散模型的原理示意圖,AI 繪畫的本質其實是數學問題,将畫風轉換爲公式,再通過解算公式獲取相似的像素排列方式
AI 創作相關法律落實有何難點:
從原理上來說,AI 學習的過程和人類學習沒有太多的本質區别,同樣是從浏覽大量圖片并且模仿開始,隻是效率超出了人類無數倍。而從法律角度出發,法律的落實首先要考慮可執行性,現有手段已經無法分辨部分經過修改過的 AI 作品與人類作品之間的區别,随着技術發展隻會更難分辨。假如認定 AI 參與工作流的作品均無版權,表面是維護版權,實際是在支持更廣泛的侵權行爲,因爲侵權方隻需要聲稱侵權作品是 AI 生成,即可侵害任何人的版權。
爲了防止被大家認爲是個天真的理想主義者,勘雲工造叮囑我們爲文章加上兩個必要的前提:首先 AI 作爲一項技術,在問世後便無法被消滅,目前開源後全世界至少有上百萬本地備份;其次是生産力和生産關系的問題,當生産力突破生産關系的限制時,必然需要新的生産關系來适配。
作爲人類使用的繪圖工具, Al 如今面臨的問題早已超出了單純的 " 科技 " 範疇,圍繞着這項新興技術産生的矛盾與争議,并非一篇文章能說得清道得明。勘雲工造會在今後将他的思考與理解分享出來,想進一步深入探讨 AI 前景的朋友,可以持續關注 AI 繪畫今後是否還能跟得上時代與法律的變革和沖擊。
公衆号近期改版,文章容易在時間線消失
推薦把遊研社設爲星标,不錯過每一篇報道
點擊下方卡片關注遊研社