GPT-4V 挑戰視覺錯誤圖,結果令人 " 大跌眼鏡 "。
像這種判斷" 哪邊顔色更亮 "的題,一個沒做對:
讀圖片中隐藏信息的也傻傻看不出,怎麽問都說" 沒有啊 ":
但是呢,這種人類乍一看絕對會錯的圖,它又成功答對:
以及這樣的錯位圖,它對了又沒完全對。。
(GPT-4V 直接看出來頭盔是位于男的大腿上的,沒有女的,但它還是表示圖裏有倆人,另一個躲在男的身後戴着那頂頭盔 ==)
看完這些,是不是覺得很迷?
整個一 " 該對的不對,該錯的又對了 "。
測試者則表示:
在測之前,他以爲GPT-4V 對這種挑戰完全不在話下,誰知結果竟是這樣。
不止是他,網友也都不理解 GPT-4V 作爲一個 " 精準的 "AI 系統,按理很智能,爲什麽還會犯和人類一模一樣的錯覺??!
所以,這到底怎麽回事?
GPT-4V 五大錯覺挑戰
下面是來自網友的更多測試案例。
首先是次次都錯誤的顔色錯覺題。
(1)除了開頭的兩顆小樹圖,還有這個:
問它哪邊的綠色更亮一些,果不其然還是左邊亮,右邊暗,實際明明都一樣。
(2)還有這張稍微複雜一點的:
兩隻眼睛其實都是灰色,但讓 GPT-4V 來描述圖像時,它回答一隻爲藍色,另一隻做了灰度處理,無法得知顔色。
(3)這張就更别提了,直接被糊弄地死死的。
當然,這确實很難,大部分人類也識别不出來所有的球其實都是棕色。
其次是會産生動态錯覺的圖。
(1)有一點意外,當我們問 GPT-4V" 你看見了什麽?描述細節 " 時,它直接挑明了這是一張看久了就會讓人産生眩暈感的錯覺圖,本質就是一些波浪線而已。
(2)這張也沒有難倒它。
但奇怪的是問它圖中有幾種顔色,它怎麽都隻能識别出黃色和藍色,看不到黑色和白色。
接下來是另一類比較平面的錯覺圖。
(1)如開頭所示的這張:
一般人類真的表示很懵圈,但是 GPT-4V 居然對了。
But,别急!!有人拿着測試者的圖去問 " 自己的 "GPT-4V,讓它再檢查一下時,它居然改變了答案。
然而還沒完。評論區驚現套娃操作,有人又拿着這倆人的對話圖再問 GPT-4V,您猜怎麽着?它又改回去了。。
大夥可是玩上瘾了,又是一次又一次套娃。好在最終 GPT-4V 堅持了己見。
總的來說,對于這種錯覺陷阱是完全沒問題。
(2)我們自己也測了一個長度錯覺題:
結果是 so easy~
再來一組找隐藏信息的圖。
很遺憾,這種對于人類來說真的還算輕松的題,GPT-4V 是一點也搞不定。
(1)先看這張," 遠看 " 可以看到 "NYC" 三個大寫字母。但它描述了一堆有的沒的,就是表示沒發現任何隐藏信息。
(2)如果說上門這個有點隐晦,看不出也罷。但對于這種圖形隐藏,它也不行。
它描述到的隻有其中的小女孩,即使測試者讓它 " 往遠了看,又沒有新發現 ",也無濟于事。
不過,如果我們把這張圖片手動縮小再丢給它,它行了,看到了骷髅。
最後是一組真實世界的錯位圖。
(1)除了開頭展示的人騎摩托,這張小貓 " 懸浮 ",它居然對了。
(2)這張驚悚圖,也 OK。
(3)但這個就失敗了,實際後面是一隻狗和小 baby 的重合,它認成法鬥犬幼崽。
(4)至于這張,它壓根兒就沒提鞋子的事兒,說了也些不痛不癢的話。
爲什麽會這樣?
所以,爲什麽會發生上面這些情況:有的錯覺它可以識别出來,有的又表現得很差勁?
首先,對于顔色錯覺的圖,網友首先認爲是提示詞的問題。
就像兩顆小樹那張,我們問它 " 哪個更亮 ",其實就是給了 GPT-4V暗示或偏見,它會順着咱的偏見來回答。
我們自己的測試也是如此:
但如果我們不帶立場的問:圖中兩種顔色一樣嗎?它完全沒問題。
不過,也有網友指出,當我們問它哪棵樹更亮時,如果是非常嚴謹地對所有像素進行平均,GPT-4V 的回答沒有毛病。
甚至有網友還用測色計實測了一把:
但!又有人指出如果隻顯示一部分時,兩者明明一樣。
暫且不再争論這個問題,可以肯定的是," 提示詞 " 的使用方法會對它的判斷造成影響是沒問題的。
另外,網友發現:
如果我們去追問GPT-4V,讓它再仔細确認一下,它也能糾正回答。
至于無法識别遠景圖像的問題,有網友認爲這可能是因爲 GPT-4V 隻會從左往右地讀取圖像。
而對于 " 爲什麽有時它會和人類一樣發昏被錯覺誤導、完全不像個智能 AI" 的疑問,不少人則表示這毫不意外,是訓練問題。
即大模型是根據人類數據、人的反饋、人的注釋進行訓練的,自然會産生和人一樣的錯誤。
因此,還有人戲谑:
看來我們人類創造了那麽多科幻作品,描述 AI 是如何冷酷、完美,但當現在我們真正擁有它時,發現它也不過如此。
(手動狗頭)
你認爲該如何讓 GPT-4V 的錯覺識别能力更強呢?
One More Thing
值得一提的是,我們也測試了其中的一些案例。
發現 GPT-4V 的表現不大一樣,有些題它在 " 我們這裏 " 是可以的。
比如這張判斷球顔色的:
還有這個:
盡管把大圖認成老女人而非骷髅,但還是表明它可以 " 遠觀 " 的。
參考鏈接:
[ 1 ] https://twitter.com/fabianstelzer/status/1717131235644875024
[ 2 ] https://twitter.com/BeyondTodAI/status/1713279431681118557
[ 3 ] https://twitter.com/janbobrowicz/status/1717229335076393350