現在連文檔都有大模型了,還是高分辨率、多模态的那種!
不僅能準确識别出圖像裏的信息,還能結合用戶需求調用自己的知識庫來回答問題。
比如,看到圖中馬裏奧的界面,直接就回答出了這是任天堂公司的作品。
這款模型由字節跳動和中國科學技術大學合作研究,于 2023 年 11 月 24 日上傳至 arXiv。
在此研究中,作者團隊提出 DocPedia,一個統一的高分辨率多模态文檔大模型 DocPedia。
在此研究中,作者用一種新的方式解決了現有模型不能解析高分辨文檔圖像的短闆。
DocPedia 分辨率可達 2560 × 2560,而目前業内先進多模态大模型如 LLaVA、MiniGPT-4 等處理圖像分辨率上限爲 336 × 336,無法解析高分辨率的文檔圖像。
那麽,這款模型究竟表現如何,又使用了怎樣的優化方式呢?
各項測評成績顯著提升
在論文中,作者展示了 DocPedia 高分辨圖文理解的示例,可以看到 DocPedia 能理解指令内容,準确地從高分辨率的文檔圖像和自然場景圖像中提取相關的圖文信息。
比如這組圖中,DocPedia 輕松從圖片中挖掘出了車牌号、電腦配置等文本信息,甚至手寫文字也能準确判斷。
結合圖像中的文本信息,DocPedia 還可以利用大模型推理能力,根據上下文分析問題。
讀取完圖片信息後,DocPedia 還會根據其儲備的豐富的世界知識,回答圖像中沒有展示出來的擴展内容。
下表定量對比了現有的一些多模态大模型和 DocPedia 的關鍵信息抽取(KIE)和視覺問答(VQA)能力。
可以看到,分辨率的提升和有效的訓練方法使 DocPedia 在各項測試基準上均取得了不錯的提升。
那麽,DocPedia 是如何實現這樣的效果的呢?
從頻域出發解決分辨率問題
DocPedia 的訓練分爲兩個階段:預訓練和微調。爲了訓練 DocPedia,作者團隊收集了包含各類文檔的大量圖文數據,并構建指令微調數據集。
在預訓練階段,大語言模型被凍結,僅優化視覺編碼器部分,使其輸出 token 的表征空間與大語言模型對齊。
在此階段,作者團隊提出主要訓練 DocPedia 的對感知能力,包括對文字和自然場景的感知。
預訓練任務包括文字檢測、文字識别、端到端 OCR、段落閱讀、全文閱讀,以及圖像文字說明。
在微調階段,大語言模型解凍,整個模型端到端優化。
并且,作者團隊提出感知 - 理解聯合訓練策略:在原有低階感知任務的基礎上,增加文檔理解、場景圖像兩種高階的偏語義理解的任務。
這樣一種感知 - 理解聯合訓練策略,進一步提高了 DocPedia 的性能。
在分辨率問題的策略上,與現有方法不同,DocPedia 從頻域的角度出發去解決。
給定一張高分辨率文檔圖像,DocPedia 首先提取其 DCT 系數矩陣。該矩陣在不損失原圖像圖文信息的前提下,将其空間分辨率下采樣 8 倍。
然後,通過一個級聯的頻域适配器(Frequency Adapter),将其輸入視覺編碼器(Vision Encoder)進行進一步的分辨率壓縮和特征提取。
通過此方法,一張 2560 × 2560 的圖像,其圖文信息可以用 1600 個 token 表示。
該方法相較于直接将原始圖像輸入到視覺編碼器(如 Swin Transformer)中,token 數量減少 4 倍。
最後,這些 token 與指令轉換而來的 token 進行序列維度拼接,輸入到大模型進行回答。
消融實驗結果表明,分辨率的提升和感知 - 理解聯合微調是 DocPedia 表現增強的兩大關鍵因素。
下圖對比了 DocPedia 對于一張論文圖像以及同一個指令,在不同輸入尺度下的回答。可以看到,當且僅當分辨率提升至 2560 × 2560 時,DocPedia 回答正确。
下圖則對比了 DocPedia 對于同一張場景文字圖像以及同一個指令,在不同微調策略下模型的回答。
由該示例可以看到,進行了感知 - 理解聯合微調的模型,能準确地進行文字識别和語義問答。
論文地址:https://arxiv.org/abs/2311.11810
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~