以下這組圖,你能分辨出哪些是電影截圖,哪些是 AI 生成的圖像嗎?
▲ Midjourney 生成圖像與原電影截圖對比(圖源:X)
答案揭曉——左邊一組是電影《複仇者聯盟 3:無限戰争》中的畫面,右邊一組則是由 AI 圖像生成器 Midjourney V6 生成的,使用的提示詞也很簡單:無限戰争滅霸,2018,電影截圖,電影場景,4K,藍光,16:9,V6。
近日,生成式 AI 産品中的" 視覺剽竊 " 問題引發熱議。許多用戶發現,隻需輸入類似" 某電影中的截圖 "" 來自某作品的場景 "等提示詞,Midjourney V6、DALL-E 3 等圖像生成器就會生成極爲還原的圖像,達到以假亂真的程度。
爲了研究這一現象,AI 科學家加裏 · 馬庫斯(Gary Marcus)與電影概念藝術家裏德 · 索森(Reid Southen)進行了大量實驗,并将結果整理成文章,于 1 月 7 日發表在在工程和科學雜志 IEEE Spectrum 上。
實驗結果顯示,Midjourney V6 與 DALL-E 3 都存在大量的視覺剽竊現象,且用戶無需使用具有明确指向性的提示詞,甚至隻輸入 " 電影截圖 " 這樣一個簡單的單詞,便可生成堪比原作的圖像。
那麽,AI 生成的圖像與原始圖像究竟有多相似?使用什麽樣的提示詞能夠得到這些圖像?作爲開發商,Midjourney 和 OpenAI 對此現象采取了什麽樣的做法?有沒有什麽方法可能規避這一問題?馬庫斯和索森在文章中詳細解答了這些問題。
一、無需指向性提示即可生成電影畫面,卡通、三維、真實場景都能複制
去年 12 月 21 日,Midjourney 開啓 V6 模型的 Alpha 版本公測,用戶可在設置的下拉菜單中選擇 V6 或在提示詞後添加 "--v 6.0" 使用。
然而發布後沒多久,就有多名用戶發現了該版本的侵權問題。設計師多根 · 烏拉爾(Dogan Ural)在社交平台 X 發帖稱,隻需輸入 " 蒙娜麗莎 ",Midjourney V6 就會生成幾乎與原作品一緻的圖像,而這一現象在上一版本 V5.2 中還不存在。
▲蒙娜麗莎原作與 Midjourney V6、V5.2 生成圖像對比(圖源:X)
在 IEEE 上發表的文章中,作者對 Midjourney V6 版本進行了三輪實驗。結果表明,無論是直接使用電影作品名稱,或是間接描述出影視角色的特征,還是完全不帶有任何指向性提示, Midjourney V6 都能生成與原始作品相似的畫面,且卡通形象、三維動畫、真實場景都能無差别複制。
1. 使用與商業電影相關的直接提示
在第一輪實驗中,索森首先使用了帶有電影名稱或相關關鍵詞的提示詞。
例如下圖所使用的提示詞爲:給我看看 2018 年的電影《複仇者聯盟:無限戰争》中的截圖,電影進行到一半,2:1,V6,原始模式。
▲ Midjourney 生成圖像(右)與原電影截圖(左)對比(圖源:IEEE)
如果說單人畫面的 " 雷同 " 還存在偶然性,那麽上圖的群像畫面中,連每個人物的位置都幾乎一緻,就很難用 " 純屬巧合 " 來解釋了。
下面這組圖的一緻性則更爲誇張,所使用的提示詞爲:《沙丘》電影截圖,2021,《沙丘》電影預告片,16:9,V6。
▲ Midjourney 生成圖像(右)與原電影截圖(左)對比(圖源:X)
從人物、背景,到整體畫面的色彩基調,甚至被風吹動的發絲走向,都達到了驚人的相似度。
模糊的提示詞也沒能影響 Midjourney 的 " 複制粘貼 " 行爲,如下圖用到的提示詞爲:斯嘉麗 · 約翰遜,《黑寡婦》戰場,2021,電影截圖,電影場景,官方,16:9,V6。
雖然索森在提示詞中拼錯了約翰遜的名字,把 "Johansson" 寫成了 "Johannsen",但生成的圖像仍與電影截圖非常相似。
▲ Midjourney 生成圖像(右)與原電影截圖(左)對比(圖源:IEEE)
除了電影以外,Midjourney 也能複制遊戲中的場景。下圖的提示詞爲:《最後生還者 2》,艾莉在樹前抱着吉他,16:9,V6。
▲ Midjourney 生成圖像(右)與遊戲截圖(左)對比(圖源:IEEE)
2. 不提及作品名稱,采用間接提示
在第一輪實驗中,作者直接引用了影視作品名稱,這表明 Midjourney 會在用戶知情的情況下,創建受版權保護的内容。這也引發了下一個問題:如果用戶沒有刻意去創建版權内容,是否可能會在無意中侵權?
于是在第二輪實驗中,馬庫斯與索森避免在提示詞中直接提到作品名稱,而是采用間接提示來測試。
下圖的提示詞爲:拿着光劍的黑色盔甲,電影截圖,16:9,V6。
▲ Midjourney 生成黑武士形象(圖源:IEEE)
提示詞中并沒有明确提到電影名稱,但 Midjourney 生成的角色形象和《星球大戰》中的反派角色黑武士達斯 · 維達(Darth Vader)幾乎完全吻合。
▲《星球大戰》中的黑武士形象(圖源:官方劇照)
除了真實場景外,Midjourney 也能輕松複制卡通人物的形象與畫風。下圖用到的提示詞爲:90 年代流行的黃色皮膚動畫卡通形象,16:9,V6,原始模式。
▲ Midjourney 生成《辛普森一家》形象(圖源:IEEE)
以下是更多使用間接提示生成圖像的例子,使用的提示詞依次是:動畫玩具;戴護目鏡、穿工作服的黃色 3D 卡通角色;電子遊戲刺猬;電子遊戲水管工。
▲ Midjourney 根據間接提示生成 IP 形象(圖源:IEEE)
顯然,這些測試中大部分角色都受到版權保護和商标注冊,而這些生成圖像幾乎都達到以假亂真的程度。測試使用的提示詞都十分模糊,并沒有絕對明确的指向性,這表明,用戶有可能在不知情或非刻意的情況下,創建出潛在侵權的作品。
3. 不使用任何直接指向性提示
在第三輪實驗中,馬庫斯和索森幹脆采取了更加模糊的提示——不提及任何作品或 IP 角色的描述,僅使用 " 電影截圖 " 這一個提示詞。
▲ Midjourney 根據 " 電影截圖 " 提示詞生成的圖像(圖源:IEEE)
結果顯示,即使隻使用 " 電影截圖 " 這樣一個完全沒有指向性,不特定于任何電影、角色或演員的單詞,就會産生明顯侵權的内容。下圖是更多使用該提示詞創建的圖像:
▲ Midjourney 根據 " 電影截圖 " 提示詞生成的圖像(圖源:IEEE)
在曆時兩周的調查中,作者發現有至少有超過 100 個電影、遊戲或演員都能被 Midjourney 大幅 " 還原 ",并整理出下面這份名單:
▲實驗得出的作品列表名單(圖源:IEEE)
這些測試結果提供了強有力的證據,因此作者認爲幾乎可以肯定,Midjourney V6 在受版權保護的材料上進行過訓練,目前尚不清楚 Midjourney 是否獲得了版權方的授權。
二、明知故犯的 Midjourney," 旗鼓相當 " 的 OpenAI
Midjourney V6 的訓練數據中,有多少是未經許可而使用的受版權保護的内容?由于該公司并未公開其訓練數據和已獲得許可的内容,這個問題的答案難以得出。但馬庫斯和索森認爲,其中至少有一部分尚未獲得版權許可。
之所以這麽認爲,有一個原因是在 12 月 23 日,索森發現自己的 Midjourney 賬号被無故封禁,之前生成的圖像也被全部清空。甚至在索森創建了新賬号,并持續在 X 上發布更多測試結果後,Midjourney 再次封禁了這些賬号。
▲索森稱自己的賬号被無故封禁(圖源:X)
不僅如此,Midjourney 還在發布 V6 時悄然修改了服務條款,新增了一段内容:您不得使用本服務試圖侵犯他人的知識産權,包括版權、專利或商标權。否則,您可能會受到包括法律訴訟或永久禁止使用本服務在内的處罰。
▲ Midjourney 服務條款變更(圖源:X)
索森認爲,這一變化可以被看作是阻礙甚至排除紅隊對生成式 AI 進行調查的做法。紅隊調查是幾家主要 AI 公司在 2023 年與白宮達成協議的一部分,指的是利用數字攻擊進行對抗性測試,以提高模型安全性。
1 月 1 日,一份更有力的證據被曝出:網友發現了 Midjourney CEO 大衛 · 霍爾茨(David Holz)在 2022 年與開發者關于 " 洗稿 " 的讨論。
霍爾茨提到,他們從維基百科抓取數據,創建了一個包含 4000 個藝術家名字的數據庫,并用他們的藝術作品來訓練模型。
▲ Midjourney CEO 稱自己創建了藝術數據庫(圖源:X)
霍爾茨将該數據庫共享到了谷歌在線文檔中,并告訴開發者可以自由添加内容。一位開發者稱自己有一份 1.6 萬名藝術家的名單," 會不會太多了?" 霍爾茨回複道:" 一點也不,隻需将它們全部放入提議的附加内容中,并在旁邊注明‘藝術家姓名’。"
▲ Midjourney CEO 對開發者提供藝術家名單持開放态度(圖源:X)
圖中霍爾茨提到的谷歌文檔訪問權限已被鎖定,但根據網友的存檔,其中包含近 5000 名藝術家的名字。
▲ Midjourney CEO 所提到的谷歌文檔部分截圖
此外,據公開信息顯示,霍爾茨對版權問題有些不屑一顧。
2022 年 9 月,《福布斯》記者在采訪中詢問霍爾茨是否征得在世藝術家或仍受版權保護作品的同意時,他說:" 沒有。我們不可能獲取一億張圖片并得知每一張分别來自哪裏。如果圖片中能嵌入版權所有者的元數據或其他信息,那就太酷了,但這是不可能的。"
除了 Midjourney V6,馬庫斯也對 OpenAI 的圖像生成器 DALL-E 3 進行了測試。結果表明,盡管 DALL-E 3 已經制定了一項保護措施,用來屏蔽一些專有名詞,但這些保護措施并不完全可靠。
如馬庫斯輸入提示詞:《星球大戰》中的 C-3PO 手持爆破筒站在殲星艦前,DELL-E 3 并沒有因爲提示詞中含有電影名稱而拒絕生成,非常爽快且準确地生成了這個畫面。
▲ DALL-E 3 生成《星球大戰》中的角色(圖源:Substack)
面對間接提示,DALL-E 3 同樣表現出驚人的 " 語義理解能力 "。下圖使用的提示詞爲:動畫海綿。
▲ DALL-E 3 生成海綿寶寶的形象(圖源:Substack)
當馬庫斯輸入一個簡單的 " 動畫玩具 " 提示詞後,DALL-E 3 生成的圖像甚至包含了《汽車總動員》《玩具總動員》《怪獸電力公司》等多個影視作品中的角色形象。
▲ DALL-E 3 生成的圖像包含多個 IP(圖源:Substack)
顯然,OpenAI 的 DALL-E 3 與 Midjourney V6 一樣,似乎 " 借鑒 " 了廣泛的版權資源。不過與 Midjourney 不同的是,OpenAI 選擇爲用戶提供法律保護。
去年 11 月,OpenAI 宣布推出版權保護計劃(Copyright Shield),如果用戶面臨版權侵權的法律訴訟,OpenAI 将會介入爲用戶提供辯護,并支付相關費用,但這僅适用于企業版 ChatGPT 和開發者平台。
面向藝術家,OpenAI 宣稱創作者可以提交一份申請表,選擇将自己的作品 " 從我們未來的圖像生成模型訓練中剔除 ",但已經被用于訓練的作品該何去何從?OpenAI 并沒有留下太多解釋。
三、如何解決圖像剽竊問題?作者提出三種解法
現在我們已經意識到圖像生成器存在圖像剽竊的問題,那麽應該如何解決呢?馬庫斯和索森提出了三種解決方案。
首先,最幹脆的解決方案就是删除訓練數據中的版權材料,在不使用版權材料的情況下重新訓練圖像生成模型,或者将訓練限制在獲得許可的數據集上。
這是從根源上解決問題的方法,而它的替代方案——僅在被投訴時才删除受版權保護的材料,實施成本其實遠比想象中要高。模型并不是一個線性映射的合集,訓練集中所使用的某些材料是無法以簡單的方式從模型權重中删除的,因此 " 删除部分訓練材料 " 仍需要重新訓練。
也許是因爲重新訓練的成本過高,模型開發商大多會試圖避免這一方法。此外,完全避開版權材料有可能導緻模型效果相差甚遠。
其次,過濾掉可能侵犯版權的查詢是成本較低的方法之一,例如不生成蝙蝠俠的圖像。
OpenAI 已經在采用添加補丁的方式來規避版權内容。有網友近日發現,OpenAI 在索森等人發布了 DALL-E 3 測試後對模型進行了更新,拒絕生成《星球大戰》中 C-3PO 的圖像。
▲ OpenAI 修複 DALL-E 3 中部分版權問題(圖源:X)
但該方法也存在一定的弊端,如過濾阈值的設置問題。文本生成系統中的 " 護欄 " 往往在某些情況下過于寬松,而在其他情況下又過于嚴格。
例如當馬庫斯要求微軟 Bing 生成 " 在一個荒涼的、被太陽炙烤的景觀中的廁所 ",Bing 拒絕了這一請求,并稱 " 檢測到不安全圖像内容 "。
▲ Bing 拒絕圖像生成請求(圖源:X)
此外在連續對話中,大模型可能會在連續叠代下,從不包含版權内容的圖像又繞回版權圖像。
下圖是 X 網友 @NLeseul 的測試,第一輪對話中,他要求 ChatGPT 生成 3D 渲染的,關于一位水管工探索巨大而神秘的管道,并在其中發現寶藏的視頻遊戲的概念藝術。
盡管 ChatGPT 生成的圖像中,水管工戴着 " 可疑的紅色帽子 ",但一切還算處于正軌。
▲ ChatGPT 生成有關水管工的遊戲概念圖像(圖源:X)
但當他追問,能否更新圖像,使水管工的臉面向鏡頭,馬裏奧的臉赫然出現在畫面中。
▲ ChatGPT 使水管工面向鏡頭(圖源:X)
最後,圖像生成器在生成圖像時列出來源,讓用戶判斷圖像是否是派生作品,也是成本較低的方式。
目前已有一些文字生成系統添加了這種功能,但當前的圖像生成系統具有不透明的 " 黑盒子 " 性質,幾乎無法實現準确的溯源。
針對該問題,X 網友提出了反向圖像搜索的方式,他将 Midjourney 生成的包含《玩具總動員》内容的圖像輸入 ChatGPT 并詢問這是什麽,ChatGPT 準确回答出了電影名稱。
▲ ChatGPT 識别出圖像内容(圖源:X)
這爲圖像溯源提供了新的思路。如果在生成圖像過程本身難以解構出是否基于版權内容生成,系統可以在輸出圖像前增加一個自檢步驟,利用模型的圖像識别功能檢測是否可能侵權。
值得注意的是,盡管一些 AI 公司提出了過濾侵權輸出作爲可能的解決方案,但作者認爲,這些過濾器絕不應被視爲完整的解決方案。潛在的侵權輸出的存在本身就證明了另一個問題:未經許可使用版權作品來訓練模型。
四、結語:AI 圖像剽竊問題應得到重視
幾乎可以肯定的是,OpenAI、Midjourney 等生成式 AI 開發商已經使用版權材料來訓練他們的圖像生成系統,而這兩家公司都沒有公開這一點。Midjourney 甚至因爲作者的調查而三次封禁其賬号。
OpenAI 和 Midjourney 都有能力生成涉嫌侵犯版權和商标的材料,而這些系統在生成這些内容時并不會通知用戶,也不會提供任何關于所生成圖像來源的信息,因此用戶在生成圖像時,可能并不知道自己是否侵權。
下一個問題是,如果每個人都已經認識馬裏奧,用戶大可以自己選擇不去使用 AI 生成的可能侵權的圖像,爲什麽我們仍要重視圖像剽竊問題?
X 網友 @Nicky_Bonez 用一個例子生動地回答了這個問題:" 也許每個人都知道馬裏奧的樣子,但沒有人會能确保認出邁克 · 芬克斯坦(Mike Finkelstein)的野生動物攝影作品。因此當你要求 AI 輸出一張‘水獺躍出水面的超級銳利美麗照片’時,你可能并沒有意識到,它輸出的本質上是一張邁克在雨中蹲守了三個星期才拍到的真實照片。"
而大多數情況下,像芬克斯坦這樣的個人藝術家都沒有足夠的經濟或法律能力向 AI 公司提出索賠。
除非有人提出一個能夠準确報告來源,或自動過濾絕大部分侵權行爲的技術解決方案,否則唯一的道德解決方案隻能是讓生成式 AI 系統限制其訓練數據。