一款名爲Vary-toy的 " 年輕人的第一個多模态大模型 " 來了!
模型大小不到 2B,消費級顯卡可訓練,GTX1080ti 8G 的老顯卡輕松運行。
想将一份文檔圖片轉換成 Markdown 格式?以往需要文本識别、布局檢測和排序、公式表格處理、文本清洗等多個步驟。
現在隻需一句話命令:
無論中英文,圖片中的大段文字都能分分鍾提取出來:
對一張圖做對象檢測,還是能給出具體坐标的那種:
這項研究由來自曠視、國科大、華中大的研究人員共同提出。
據介紹,Vary-toy 雖小,但卻幾乎涵蓋了目前 LVLM(大型視覺語言模型)主流研究中的所有能力:文檔 OCR 識别(Document OCR)、視覺定位(Visual Grounding)、圖像描述(Image Caption)、視覺問答(VQA)。
現在,Vary-toy 代碼和模型均已開源,并有在線 demo 可試玩。
網友一邊表示感興趣,一邊關注點在于舊 · GTX1080,心情 belike:
" 縮小版 "Vary
其實,早在去年 12 月 Vary 團隊就發布了 Vary 的首項研究成果 "Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models"。
研究人員指出 CLIP 視覺詞表在密集感知能力上的不足,并用一種簡單有效的擴充詞表方案給出了一種全新的 OCR 範式。
Vary 發布後得到廣泛關注,目前 Github1.2k+ star,但也有不少人因爲資源受限運行不了。
考慮到目前開源得很好且性能出色的 " 小 "VLM 比較少,于是該團隊又新發布了号稱是 " 年輕人的第一個多模大模型 " 的 Vary-toy。
與 Vary 相比,Vary-toy 除了小之外,也訓練了更強的視覺詞表,新的詞表不再将模型局限于文檔級 OCR,而是給出了一個更加通用和全面的視覺詞表,其不僅能做文檔級 OCR,還能做通用視覺目标檢測。
那這究竟是如何做到的?
Vary-toy 的模型結構和訓練流程如下圖所示,總的來說,訓練共分兩個階段。
首先在第一階段,使用 Vary-tiny+ 結構,預訓練出一個相比原版 Vary 更好的視覺詞表,新的視覺詞表解決了原 Vary 隻用它做文檔級 OCR 的網絡容量浪費問題、以及沒有充分利用到 SAM 預訓練優勢的問題。
然後在第二階段中,将第一階段中訓好的視覺詞表 merge 到最終結構進行 multi-task training/SFT。
衆所周知,一個好的數據配比對于産生一個能力全面的 VLM 是至關重要的。
因此在預訓練階段,Vary-toy 使用了 5 種任務類型的數據構建對話,數據配比和示例 prompt 如下圖所示:
而在 SFT 階段,隻使用了 LLaVA-80K 數據。更多的技術細節,可以查看 Vary-toy 的技術報告。
實驗測試結果
Vary-toy 在 DocVQA、ChartQA、RefCOCO、MMVet 四個基準測試的得分如下:
Vary-toy 在 DocVQA 上可以達到 65.6% 的 ANLS,在 ChartQA 上達到 59.1% 的準确率,RefCOCO88.1% 的準确率:
MMVet 上可以達到 29% 準确率,無論是從基準測試評分上還是可視化效果上,不到 2B 的 Vary-toy 甚至能和一些流行的 7B 模型的性能一較高下。
項目鏈接:
[ 1 ] https://arxiv.org/abs/2401.12503
[ 3 ] https://varytoy.github.io/
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~