頭圖來自:視覺中國
AI 圖片檢測器又被沖了!
最近,外網爆出大量中東地區沖突的照片,向世人展示了生命在這種極端條件下是何等的脆弱和無助。
其中,一張 " 燒焦嬰兒 " 的照片,由于太過于殘忍,讓人難以置信。
于是,有人把照片放到了 AI 圖片檢測器中,來檢測這些照片是否爲 AI 生成。
果然,這張照片被 AI 檢測器—— Optic,認定爲 "AI 生成 "。
而在 4chan 上,甚至還出現了 " 原圖 ",原本屍體的位置其實是一隻狗狗。
于是網友憤怒地去發布者推文下方留言,攻擊他利用 AI 生成的照片來散播虛假的末日恐慌。
這條認爲照片是由 AI 生成的推文,2 天不到的時間已經有 2100 萬的閱讀量。
但是很快網友們發現,他們把照片放到了同樣的 AI 檢測器上,檢測結果幾乎是随機的,既有 AI,也有人類。
有人發現,隻要把同一張圖片裁剪一下,或者背景色變成黑白,這個檢測器就會認爲圖片是由人類拍攝的。
甚至有時候檢測器 " 抛硬币 " 的時候,硬币還會立起來 ......
那到底這張圖是不是由 AI 生成的呢?
最後,AI 檢測器官方也針對這個事件發推,認爲他們的沒有辦法确定圖片是否由 AI 生成,希望大家理性讨論。
一、AI 圖片檢測器,到底有多不靠譜?
UC Berkeley 教授、世界頂尖的數字圖像處理專家之一 Hany Farid 表示,這張圖像沒有任何迹象表明它是由 AI 生成的。
"AI 圖像生成器最大的問題之一是高度結構化的形狀和直線,"Farid 說。" 如果你看到桌腿和螺絲,一切看起來都很完美,那麽圖片就幾乎不可能是由 AI 生成的。"
比如這張著名的 " 海綿寶寶制造了 9/1" 的圖片,窗外的雙子塔線條都不直,飛機上的儀表盤都相互扭曲到一起了,這看起來就是 "A 裏 A 氣的 "。
" 我們在那張照片中能夠看到物體的結構很準确、陰影也很準确、沒有僞影——這讓我相信這張照片應該完全是真實的。" 法裏德說。
Farid 還通過他自己的其他 AI 圖像檢測器識别了這幅圖,另外四種 AI 圖像檢測工具也都認爲圖像不是 AI 生成的。
Farid 說,"AI 檢測器是一個工具,但它隻是工具包的一部分。用戶需要對整個圖像進行進行一系列的測試,不可能隻按一個按鈕就得到答案。"
而 AI 檢測工具 Optic 确實也沒有給出自己的檢測技術的具體細節。
Optic 網站也聲明,"AI 檢測器可能會産生不準确的結果 "。
二、AI 圖像檢測技術
Farid 教授在去年曾經撰寫過一篇論文,介紹了如何判斷 AI 生圖工具圖像的一緻性。
通過判斷圖像上的一緻性,可以幫助判斷出圖像是否由 AI 生成。
論文鏈接:https://arxiv.org/abs/2206.14617?ref=404media.co
教授首先概述三種相關的基于物理的分析方式,每種分析都利用了圖像形成過程固有的相同的基礎透視幾何原理。
消失點
1. 平行後退線彙聚于一個消失點。
瓷磚之間的線圖 1 ( a ) 是平行的。成像時,這些線全部彙聚在一個消失點。如果場景中的平行線在深度上遠離鏡頭,那麽就會存在消失點,盡管它可能落在圖像之外。
如果場景中的平行線在深度上不後退,也就是說,如果它們完全平行于鏡頭傳感器(在任何距離),則平行線将被成像爲平行線,出于實際目的,可以考慮消失點處于無窮遠。這種幾何學源于透視投影的基礎知識。
在透視投影下,場景中的點 ( X, Y, Z ) 被成像到點 ( f X/Z, f Y /Z ) ,其中 f 是鏡頭焦距。
由于圖像中點的位置與距離 Z 成反比,因此投影點會作爲距離的函數進行壓縮,從而導緻圖像中的線會聚。
2. 平行平面上的平行線會聚到同一個消失點。
遠處的盒子在圖 1 ( b ) 與地闆上的瓷磚對齊,使得盒子的邊緣與瓷磚之間的線平行。因爲平行平面上的平行線共享一個消失點,所以盒子側面和瓷磚地闆的消失點是相同的。
3. 平面上所有直線的消失點都位于消失線上。
許多組平行線,每組平行線會聚到不同的消失點,如圖 1 ( c ) 所示。如果平行線組跨越場景中的同一平面,則它們的消失點将位于消失線上。消失線的方向由鏡頭相對于平行線所跨越的平面的旋轉來确定。
陰影
有點令人驚訝的是,消失點背後的相同幾何形狀也适用于投射陰影。
上圖顯示的是連接盒子上的點及其在投射陰影上的對應點的三條光線。擴展圖像邊界後發現,這三條光線相交于一個點,該點對應的是照亮場景的光源的投影。
無論光源在附近(台燈)還是在遠處(太陽),這種與陰影、物體和光相關的幾何約束都成立,并且無論陰影投射到的表面的位置和方向如何,該幾何約束都成立。
當然,該分析假設場景由單個主光源照明,從每個對象僅存在單個投射陰影可以明顯看出這一點。
在上面的示例中,照亮場景的光源位于鏡頭前面,因此光源的投影位于圖像平面的上半部分。
然而,如果光線位于鏡頭後面,則光源的投影将位于圖像平面的下半部分。由于這種反轉,對象約束的陰影也必須反轉。
因此,圖像的投射陰影分析必須考慮三種可能性:
光線位于鏡頭前面,光源的投影位于圖像平面的上半部分,約束錨定在投射陰影上并包圍對象;
光線在鏡頭後面,光源的投影在圖像平面的下半部分,約束錨定在物體上并包圍投射的陰影;
光線位于鏡頭中心的正上方或正下方,光源的投影位于無窮遠,約束将在無窮遠相交。如果這些情況中的任何一種導緻所有約束的共同交集,則投射陰影在物理上是合理的。
反射
下圖 2 所示的場景是三個盒子反射在平面鏡中。
這個圖的下半部分顯示了真實盒子和虛拟盒子之間的幾何關系。
橙色線代表鏡子,位于兩組盒子之間的中點。黃線連接真實和虛拟盒子上的對應點。這些線彼此平行并垂直于鏡子。
現在考慮一下這些平行線疊加在場景上時如何出現。從鏡子平面觀察時平行的線不再平行。相反,由于透視投影,這些平行線會聚到一個點,就像世界中的平行線會聚到一個消失點一樣。
由于連接場景中對應點及其反射的線始終是平行的,因此這些線必須在圖像中具有共同的交點才能在物理上合理。
實例分析
上圖 3 顯示了 AI 合成圖像的三個代表性示例,并對地闆和櫃台頂部的幾何透視一緻性進行了分析。
每張圖像(在幾個像素内)準确地捕捉了瓷磚地闆的透視幾何形狀,作爲一緻的消失點(以藍色呈現)的證據。然而,平行台面(以青色呈現)的消失點在幾何上與台面的消失點不一緻。
相應的對齊圖塊。即使台面與瓷磚不平行,青色消失點也應位于由瓷磚地闆消失點定義的消失線(以紅色呈現)上。請注意,對于圖 3 右上角的圖像,瓷磚地闆上的水平線幾乎是平行的,因此相應的消失點位于無窮遠,因此不會相交。
雖然這些圖像中消失點局部是一緻的,但并不是全局一緻的。在 25 張合成的廚房圖像中,每張都發現了相同的模式。
上圖是用提示詞生成的方塊圖片,在陰影處就明顯地出現了不一緻性。
上圖 8 所示是将幾何分析應用于由 AI 生成的包含了看上去相當準确的反射的圖像結果。
盡管這些反射在視覺上是合理的,但在幾何上并不一緻。
與前幾節中的投射陰影和幾何結構不同,DALL · E-2 很難合成合理的反射,大概是因爲此類反射在其訓練圖像數據集中不太常見。
基于這些對于 AI 生成圖片局限性的了解,通過對于圖片一緻性的檢測,能非常有助于判斷圖片是否由 AI 合成。
三、圖像識别難,AI 打敗 AI
AI 圖像生成器,正不斷進化。
上半年,Midjourney 爆火,能夠生成足夠逼真的圖片,卻愚弄了很多人。
86 歲教皇頭頂白色小瓜帽、一身喇叭口的白色羽絨服,金屬制的十字架項鏈外露,外加一本正經的表情。
當時,這張照片一經發布,在社交媒體上騙過了所有人,被許多網友瘋狂轉發,甚至有人直呼教皇太潮了。
在大家都信以爲真時,突然有人點出這是 AI 生成的,許多人瞬間傻眼了。
這僅是其中的一個例子,還有馬斯克新女友 GM 的首席執行官 Barra 等各種虛假流傳的圖片,已經達到完全以假亂真的程度。
這一事件,直接引發了馬斯克、蘋果聯合創始人 Stephen Wozniak 等科技領導人呼籲暫停 AI 的研發。
雖然 AI 生成有趣、便利,但它給整個行業帶來了風險。
一不小心,就會被别有用心的人用其傳播虛假信息、侵犯知識産權,或生成 " 果照 " 等等。
接下來幾個月,Midjourney 将會發布最新的 V6 版本,目前 V5 版本已經在圖片生成的真實度上做得非常完善。
而其他 AI 圖像生成器也在快速叠代。前段時間,OpenAI 剛剛發布了 DALL · E 3,與此同時微軟必應圖像生成也用上了 DALL · E 3。
當然了,研究人員也在努力構建可以辨别圖像的工具,關鍵是如何追趕上 AI 圖像生成器不斷換代的步伐?
四、AI 檢測工具競争賽
現在,已經有十幾家公司提供工具來識别圖片是否是由 AI 生成的,它們的名字包括 Sensity AI(深度僞造檢測)、Fictitious.AI(抄襲檢測)、Originality.AI 等等。
人工智能信任與安全公司 Optic 推出了一個 "AI or Not" 的網站。
在這個網站上,你可以上傳照片或粘貼圖片網址,網站會自動判斷,照片是否是由 AI 生成的。上傳的圖片數量沒有限制。
另外,你也可以在 Optic 的推特賬戶 @optic_xyz 上發布或轉發一張圖片,或者加上 #aiornot,便會得到一條回複,包括圖片的置信度百分比。
這家公司的首席執行官 Andrey Doronichev 表示,Optic 的 AI 工具可以檢查每張圖像中人眼不可見的僞影,例如圖像中亮度和顔色的變化。
讓人驚喜的是,該工具的準确率爲 95%。
但是随着 Midjourney 等 AI 圖像生成工具的升級叠代,"AI or Not" 的準确率下降到了 88.9%。
比如,教皇這張圖片,AI 認爲 87% 的概率是由人類做的。
教皇穿着白色羽絨服的形象在 Optic 更新前被愚弄
其實有網友表示,仔細去看這張圖,就會發現有人工智能生成的明顯迹象,包括幾個明顯模糊的細節區域:
看似不完整的手正試圖抓住一個不太像咖啡杯的東西,旁邊還有污迹;
教皇佩戴的十字架也不是直角形狀,上面還刻着一個像是用黏土雕刻而且坐着的耶稣;
眼鏡與臉部的陰影不一緻。
這幾點都表明這是由人工智能生成的。它僅了解現實的表面,但不了解支配物理對象是如何相互作用的基本規則。
除了 Optic 家的工具,爲内容添加标簽的人工智能公司 Hive,近來也更新了自家的免費 AI 生成的内容檢測器。
這個 AI 工具在 DALL-E、Stable Diffusion、Midjourney 的數百萬張圖像上進行了訓練。
Hive 預計,它能準确檢測到大約 95% 的 AI 生成的圖像,尤其是在網上瘋傳的共享圖像,往往比其他圖像識别效果更好。
CEO Kevin Guo 稱,當人們分享人工智能圖像時,他們會選擇最逼真的假圖,所以人們很難辨别什麽是真的。
左圖是 AI 生成的圖像,可以從兩個手指和奇怪的擊掌辨别,而在普通 iStock 照片中真實的樣子如右圖。
與 Optic 一樣,Hive 在檢測必應 Image Creator 的圖像時,也失敗了。
不過,這些檢測工具并非止步不前,随着 AI 圖像整成模型的叠代,它們也會更新升級。
其實,AI 圖像辨别不能僅僅依靠行業中的檢測工具完成,更應該在模型訓練時設好護欄。
許多人工智能圖像生成器,也被限定了一些内容能否被生成的 " 黑名單 "。
比如,必應 Image Creator 會标記和阻止要求其創建知名公衆人物圖像的用戶提示。
Midjourney 有 "human moderators",并正在推出一種用算法來調節用戶請求的方法。
還有 DALL · E 3 技術報告中介紹道,當你讓 ChatGPT 生成一些 " 果圖 "、或者涉及黑白人等圖片時,輸入的 prompt 直接被改寫。
五、給 AI 加水印,大廠在做了
此外,數字水印也是目前增強生成式 AI 安全的重要手段之一,微軟、谷歌等科技巨頭已經在産品中使用。
微軟曾在 9 月 Surface 大會上,介紹了 DALL · E 3 加持下的必應生成圖像的能力。
與此同時,爲了确保圖像不被濫用,微軟團隊使用加密方法爲每一張圖像生成不可見的水印,包括創建時間和日期。
任何人可以點開每張圖片,輕易識别出是否是 AI 生成的。
Meta 還開源了 Stable Signature,可将數字水印直接嵌入到 AI 自動生成的圖片中。
論文地址:https://arxiv.org/pdf/2303.15435.pdf
值得一提的是,Stable Signature 生成的數字水印不受裁剪、壓縮、改變顔色等破壞性操作影響,能追溯到圖片的初始來源。
它可應用于擴散、GAN 等模型,比如 Stable Diffusion。
還有谷歌在 Google Cloud Next 上,也發布了爲 AI 生成的圖像打上水印并進行檢測和識别的 SynthID。
SynthID 使用兩個深度學習模型,分别用于水印和識别。它們可以在一組不同的圖像上一起訓練。
組合模型針對一系列目标進行了優化,包括正确識别帶水印的内容,并通過直觀地将水印與原始内容對齊來提高水印的隐蔽性。
SynthID 生成的數字水印是直接嵌入到圖像的像素中的,人眼無法察覺。但 SynthID 可以檢測并識别它們。
SynthID 可以幫助評估圖像由 Imagen 創建的可能性
加州大學河濱分校電氣和計算機工程教授 Amit Roy-Chowdhury 表示,仔細觀察圖像背景,我們可以用自己的眼睛更好地檢測假圖像。
不過,在 AI 模型加速叠代的當下,想要有 " 火眼金睛 " 太難了。
參考資料:https://www.404media.co/ai-images-detectors-are-being-used-to-discredit-the-real-horrors-of-war/
本文來自微信公衆号:新智元 (ID:AI_era),編輯:桃子、潤