Claude 3.5 Sonnet 的圖表推理能力,比 GPT-4o 高出了 27.8%。
針對多模态大模型在圖表任務上的表現,陳丹琦團隊提出了新的測試基準。
新 Benchmark 比以往更有區分度,也讓一衆傳統測試中的高分模型暴露出了真實能力。
該數據集名爲CharXiv,内容全部選自 arXiv 論文中的真實圖表,共計 2323 張。
相比此前的 FigureQA 等測試基準,CharXiv 涵蓋的任務類型更加廣泛,而且不按套路出牌,難度大幅增加。
爲了宣傳這套新 Benchmark,研究團隊還寫出了一首洗腦神曲,并制作了視頻宣傳片。
這段魔性的宣傳片,讓有些網友表示已經被成功 " 洗腦 ",腦海中充滿了(歌詞中的)"2323 張圖表 "。
導師陳丹琦也感到印象十分深刻,直言這是自己見過最 fancy 的視頻。
那麽,CharXiv 究竟新在哪,又難在哪呢?
來自學術論文的圖表測試集
團隊指出,過去的表格測試标準太過簡單,而且不能反映模型的真實水平。
比如 FigureQA、DVQA 和 ChartQA 的子集,隻要稍作簡單修改,模型的成績就能下降超過 1/3。
究其原因,作者認爲是之前的數據集中圖表都是由程序合成,問答也高度模闆化。
于是,研究團隊提出了 CharXiv,由人類專家從 arXiv 論文中精心選擇了 2323 個真實圖表。
圖表的類型也更加豐富,提出的問題也避免了套路化的問題。
根據重點考察能力的不同,作者将測試題目分成了兩類——描述性問題和推理性問題。
兩類問題的比例爲 4:1,即每張圖表配有 4 個描述性問題和 1 個推理性問題。
其中描述性問題包括信息提取(Information extraction)、列舉(Enumeration)、計數(Counting)、模式識别(Pattern recognition)等等。
這當中,模式識别指的是要求模型識别圖表中數據的趨勢和分布模式,如線條是否相交、數據是遞增還是遞減等。
另外還有較難的組合型(Compositionality)任務,模型需要綜合多個視覺元素的信息回答問題,體現圖表信息的組合理解。
比如這道題目就是一道組合型的描述類問題,它需要在識别清楚坐标軸的同時,完成計數的任務:
在當前的圖表中,所有坐标軸中一共有多少明确标記的刻度?(這裏問的是标記的數量,不是求和)
推理性問題則根據答案出現的方式又分爲了四個子類:
Text-in-chart:問題的答案是圖表中出現的文本,如圖例标簽、離散刻度标簽等。
Text-in-general:問題的答案是一個易于驗證的文本短語,但不一定顯式出現在圖表中。
Number-in-chart:問題的答案是圖表中給出的一個數值,, 如坐标軸刻度值。
Number-in-general:問題的答案是一個精确到特定小數位數的數值,但可能需要通過閱讀和推理才能得出,而不一定直接出現在圖表中。
舉個例子,下面的問題要求模型對表格中各列的數值進行求和,然後比較後給出和最小的一列對應的标簽,這就是一項推理型任務。
利用這套數據集,作者在零樣本的條件下評估了一些知名的開源和閉源模型。
模型依然不擅長推理
在推理類問題上,作者發現所有模型的表現都不是很理想。
表現最好的是真人,模型當中則是 Claude 3.5 Sonnet,不過也僅僅及格,和人相比還是差了四分之一,成績超過 40 的模型一共也隻有三個。
緊随其後的是 GPT-4o、Gemini 1.5 Pro 和 Claude 3 家族,有意思的是,Claude 3 的 " 超大杯 "Opus,表現還不如小一些的 Sonnet 和 Haiku。
開源模型中,表現最好的是微軟的 " 小 " 模型 Phi-3,參數量一共隻有 4B,成績卻跻身到了 Claude 3 家族的中間。
在描述類任務當中,表現最好的依然是人類,但模型和人類的差距小了,表現最好的 GPT-4o 和人類隻差了不到 10%。
不過開源模型的表現就不那麽好了,分數最高的 Phi-3 才剛剛及格。
另外,其中的組合型問題(COMP)任務,對于模型來說也依舊是難點,沒有任何一個模型得分超過 60,而人類的表現是大于 90 的。
例如,數出 x 軸和 y 軸上的刻度标簽數量,對于人來說是十分簡單的任務,但測試下來,20 個模型在該任務中的準确率無一達到 10%。
而且,随着子圖數量的增加,模型的描述能力也會下降。當有 6 個以上子圖時,商業模型的成績會下降 10-30%,開源模型對子圖的處理則更加困難,性能下降比例達到了 30-50%。
經過綜合比對,作者發具備良好描述能力是推理能力的前提——推理能力強的模型一般描述能力也強,但描述強的模型推理能力不一定強。當模型無法準确描述圖表時,即使使用思維鏈(CoT)推理,成績也不會提升。
論文地址:
https://arxiv.org/abs/2406.18521