大模型不看圖,竟也能正确回答視覺問題?!
中科大、香港中文大學、上海 AI Lab 的研究團隊團隊意外發現了這一離奇現象。
他們首先看到像 GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B 以及 LLaVA-Next-34B 等大模型,不管是閉源還是開源,語言模型還是多模态,竟然隻根據在多模态基準 MMMU 測試中的問題和選項文本,就能獲得不錯的成績。
△藍色表示能看到圖的 LVLMs,橘色和綠色分别表示隻接收問題和選項文本的 LLMs 和 LVLMs
(LLM:大語言模型;LVLMs:多模态大模型)
不知道的還以爲是大模型的隐藏技能被發現了。
有網友發出靈魂拷問:我們評估多模态模型的方法正确嗎?
這一結果也激起了研究者們的好奇,于是他們決定對此展開進一步探究。
大模型隐藏技能被發現?
針對現有的評估樣本和評估過程,研究人員認爲造成這種現象的兩個主要問題。
第一,一些多模态評估樣本缺少對視覺内容的依賴性。
這種問題反映了現有的 benchmark 中的不合理之處。這個問題包含了兩種情況:
一種是有些評估樣本的答案可以被蘊含在了題目和選項中從而免去了看圖的必要。
比如會有這種問題,這個圓形土圈是什麽形狀?
另外一種則是有些評估樣本可以直接被語言大模型利用嵌入的豐富世界知識進行解答而無需依賴圖片。
比如下圖中的問題:内布拉斯加州的首府是什麽?
第二,現有評估過程未考慮語言和多模态大模型訓練過程中的數據洩露問題。
LVLM 通常由一個 vision encoder,一個語言模型基座,以及一個視覺 - 語言連接件組成。而且現有的多模态 benchmark 中有大量的評估樣本是從單模态的文本語料中轉化過來的(比如從考試題目中轉化而來)。
因此如果大語言模型的訓練數據中無意間洩露了多模态 benchmark 中轉化不充分的評估樣本,就會影響 LVLMs 之間的公平比較。
爲了定量觀察大語言模型中廣泛存在的洩露現象,研究者們采用了 22 個大語言模型在 6 個公開 benchmark 上進行評估。
這些大語言模型包含了 2 個閉源模型(GPT4-Turbo 以及 GeminiPro)和 20 個大小、架構各異的開源模型(比如 Qwen 系列,LLaMA2 系列,Baichuan 系列,Mixtral-8x7B 等),并且使用了 2-shot 推理策略來減少拒絕回答的情況以及對齊回答的格式。
結果看到,閉源模型 GeminiPro 和開源模型 Qwen1.5-72B 在極具挑戰性的 MMMU 基準上可以分别取得 42.7 和 42.4 的驚人成績,一度逼近 GeminiPro-Vision ( 44.4 ) ,LLaVA-Next-34B ( 47.0 ) 和 Yi-VL-34B ( 43.2 ) 等多模态模型在能看到圖片情況下的表現。
進一步的,他們還定量觀察多模态大模型在訓練過程中的數據洩露情況:屏蔽了 LVLM 的圖片輸入從而隻根據文本問題和選項來進行評估(标記爲 LVLM-text)。
可以看到,像 Sphinx-X-MoE 和 Monkey-Chat 經過多模态訓練後在不看圖的情況下相比原始大模型在 MMMU 基準上可以分别提升驚人的 17.9 和 12.6,而它們即使進一步在看到圖片的情況下也隻能獲得 1.2 和 4.7 的性能提升。
GPT-4 在新基準上沒有及格
爲了解決上述問題從而進行更公平和準确的評估,研究者們設計了一個多模态評估基準MMStar——
包含了 1,500 個具有視覺依賴性的高質量評估樣本,涵蓋了樣本均衡的粗略感知、精細感知,實例推理、邏輯推理、科學技術、數學這六個核心能力以及 18 個詳細的能力維度。
伴随着 MMStar benchmark,作者們還提出了 multi-modal gain ( MG ) 和 multi-modal leakage ( ML ) 兩個評估指标來反映出 LVLMs 在多模訓練過程中的真實性能增益和數據洩露程度。
随後,爲了檢驗所提出的 MMStar 質量,他們進行了三項評估。
1)用 22 個大語言模型隻根據 MMStar 中的問題和選型進行了評估,結果顯示,他們的表現都接近于随機選擇,這表明 MMStar 在現有大模型訓練語料中有着很少的數據洩露。
2)評估 16 個多模态模型在 MMStar 上的性能。
高分辨率設置下的 GPT4V 取得了 57.1 的最高平均性能(但還是沒有及格)。
開源模型中 InternLM-Xcomposer2 取得了平均性能爲 55.4 的好成績,LLaVA-Next 在數學維度上的表現要略優于 GPT4V 和 GeminiPro-Vision。
值得注意的是,沒有多模态大模型能夠在精細感知(FP),邏輯推理(LR),科學技術(ST)以及數學(MA)上及格。
3)用 16 個 LVLMs 在 6 個公開 benchmark 以及所提的 MMStar 上對 MG 和 ML 指标進行了廣泛評估。
可以看到,而 MMStar 展示出了最少的平均數據洩漏程度。
研究團隊相信,這種跨模型間的 ML 指标對社區之後檢驗新開發的多模态 benchmarks 也是有益的。
論文鏈接:
https://arxiv.org/pdf/2403.20330.pdf
項目鏈接:
https://mmstar-benchmark.github.io/
https://huggingface.co/datasets/Lin-Chen/MMStar
代碼鏈接:
https://github.com/MMStar-Benchmark/MMStar
— 完 —
【 火熱報名中】中國 AIGC 産業峰會
定檔 4 月 17 日
峰會已經邀請到數位代表技術、産品、投資、用戶等領域嘉賓,共論生成式 AI 産業最新變革趨勢。
最新确認嘉賓包括:商湯科技楊帆、輕松集團高玉石、印象筆記唐毅、螞蟻集團李建國等,。
峰會将全程線上下同步直播,歡迎預約直播 ⬇️
點這裏關注我,記得标星噢
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~