一個可以自動分析 PDF、網頁、海報、Excel 圖表内容的大模型,對于打工人來說簡直不要太方便。
上海 AI Lab,香港中文大學等研究機構提出的 InternLM-XComposer2-4KHD(簡寫爲 IXC2-4KHD)模型讓這成爲了現實。
相比于其他多模态大模型不超過 1500x1500 的分辨率限制,該工作将多模态大模型的最大輸入圖像提升到超過 4K (3840 x1600)分辨率,并支持任意長寬比和 336 像素~4K 動态分辨率變化。
發布三天,該模型就登頂 Hugging Face 視覺問答模型熱度榜單第一。
輕松拿捏 4K 圖像理解
先來看效果 ~
研究人員輸入論文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首頁截圖(分辨率爲 2550x3300),并詢問論文哪個模型在 MMBench 上的性能最高。
需要注意的是,該信息在輸入截圖的正文文字部分并未提及,僅僅出現在一個相當複雜的雷達圖中。面對這麽刁鑽的問題,IXC2-4KHD 成功理解了雷達圖中的信息,正确回答問題。
面對更加極端分辨率的圖像輸入(816 x 5133),IXC2-4KHD 輕松理解圖像包括 7 個部分,并準确說明了每個部分包含的文字信息内容。
随後,研究人員還在 16 項多模态大模型評測指标上全面測試了 IXC2-4KHD 的能力,其中 5 項評測(DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench)關注模型的高分辨率圖像理解能力。
僅僅使用 7B 參數量,IXC2-4KHD 在其中 10 項評測取得了媲美甚至超越 GPT4V 和 Gemini Pro 的結果,展現了不局限于高分辨率圖像理解,而是對各種任務和場景的泛用能力。
△僅 7B 參數量的 IXC2-4KHD 性能媲美 GPT-4V 和 Gemini-Pro 如何實現 4K 動态分辨率?
爲了實現 4K 動态分辨率的目标,IXC2-4KHD 包括了三個主要設計:
(1)動态分辨率訓練:
△4K 分辨率圖像處理策略
在 IXC2-4KHD 的框架中,輸入圖像在保持長寬比的情況下,被随機放大到介于輸入面積和最大面積(不超過 55x336x336,等價于 3840 x1617 分辨率)的一個中間尺寸。
随後,圖像被自動切塊成多個 336x336 的區域,分别抽取視覺特征。這種動态分辨率的訓練策略可以讓模型适應任意分辨率的視覺輸入,同時也彌補了高分辨率訓練數據不足的問題。
實驗表明,随着動态分辨率上限的增加,模型在高分辨率圖像理解任務(InfographicVQA、DocVQA、TextVQA)上實現了穩定的性能提升,并且在 4K 分辨率仍然未達到上界,展現了更高分辨率進一步擴展的潛力。
(2)添加切塊布局信息:
爲了使模型能夠适應變化豐富的動态分辨率,研究人員發現需要将切塊布局信息作爲額外的輸入。爲了實現這個目的,研究人員采取了一種簡單的策略:一個特殊的‘換行’(’ n ’)令牌被插入到每一行的切塊之後,用于告知模型切塊的布局。實驗表明,添加切塊布局信息,對于變化幅度比較小的動态分辨率訓練(HD9 代表切塊區域個數不超過 9)影響不大,而對于動态 4K 分辨率訓練則可以帶來顯著的性能提升。
(3)推理階段擴展分辨率
研究人員還發現,使用動态分辨率的模型,可以在推理階段通過增加最大切塊上限直接擴展分辨率,并且帶來額外的性能增益。例如将 HD9(最多 9 塊)的訓練模型直接使用 HD16 進行測試,可以在 InfographicVQA 上觀察到高達 8% 的性能提升。
IXC2-4KHD 将多模态大模型支持的分辨率提升到了 4K 的水平,研究人員表示目前這種通過增加切塊個數支持更大圖像輸入的策略遇到了計算代價和顯存的瓶頸,因此他們計劃提出更加高效的策略在未來實現更高分辨率的支持。
論文鏈接:
https://arxiv.org/pdf/2404.06512.pdf
項目鏈接:
https://github.com/InternLM/InternLM-XComposer
— 完 —
投稿請發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回複你
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~