GPT-4 解決網絡名梗" 吉娃娃 or 藍莓松餅 ",一度驚豔無數人。
然鵝,現在它被指出" 作弊 "了!
全用原題中出現的圖,隻是打亂順序和排列方式。
結果,最新版全模式合一的 GPT-4 不但數錯圖片數量,原來能正确識别的吉娃娃也識别出錯了。
那麽爲什麽 GPT-4 在原圖上表現的這麽好呢?
搞這項測試的 UCSC 助理教授Xin Eric Wang猜測,原圖在互聯網上太流行,以至于 GPT-4 在訓練時多次見過原答案,還給背了下來。
圖靈獎三巨頭中的LeCun也關注此事,并表示:
警惕在訓練集上測試。
泰迪和炸雞也無法區分
原圖究竟有多流行呢,不但是網絡名梗,甚至在計算機視覺領域也成了經典問題,并多次出現在相關論文研究中。
那麽抛開原圖的影響,GPT-4 能力究竟局限在哪個環節?許多網友都給出了自己的測試方案。
爲了排除排列方式太複雜是否有影響,有人修改成簡單 3x3 排列也認錯很多。
有人把其中一些圖拆出來單獨發給 GPT-4,得到了 5/5 的正确率。
但 Xin Eric Wang 認爲,把這些容易混淆的圖像放在一起正是這個挑戰的重點。
終于,有人同時用上了讓 AI 和兩大咒語,得到了正确結果。
但 GPT-4 在回答中的用詞 " 這是視覺雙關或著名梗圖的一個例子 ",也暴露了原圖确實可能存在于訓練數據裏。
最後也有人測試了經常一起出現的" 泰迪 or 炸雞 "測試,發現 GPT-4 也不能很好分辨。
但是這個" 藍莓 or 巧克力豆 "就實在有點過分了……
視覺幻覺成熱門方向
大模型 " 胡說八道 " 在學術界被稱爲幻覺問題,多模态大模型的視覺幻覺問題,已經成了最近研究的熱門方向。
在 EMNLP 2023 一篇研究中,構建了 GVIL 數據集,包含 1600 個數據點,系統性的評估視覺幻覺問題。
研究發現,規模更大的模型更容易受到錯覺的影響,而且更接近人類感知。
另一篇剛出爐的研究則重點評估了兩種幻覺類型:偏差和幹擾。
偏差指模型傾向于産生某些類型的響應,可能是由于訓練數據的不平衡造成的。
幹擾則是可能因文本提示的措辭方式或輸入圖像的呈現方式造成去别的場景。
研究中指出 GPT-4V 一起解釋多個圖像時經常會困惑,單獨發送圖像時表現更好,符合 " 吉娃娃 or 松餅 " 測試中的觀察結果。
流行的緩解措施,如自我糾正和思維鏈提示并不能有效解決這些問題,并測試了 LLaVA 和 Bard 等多模态模型存在相似的問題。
另外研究還發現,GPT-4V 更擅長解釋西方文化背景的圖像或帶有英文文字的圖像。
比如 GPT-4V 能正确數出七個小矮人 + 白雪公主,卻把七個葫蘆娃數成了 10 個。
參考鏈接:
[ 1 ] https://twitter.com/xwang_lk/status/1723389615254774122
[ 2 ] https://arxiv.org/abs/2311.00047
[ 3 ] https://arxiv.org/abs/2311.03287