出品 | 虎嗅科技組
作者 | 杜钰君
編輯 | 王一鵬
頭圖 | 攝圖網
碾壓谷歌的 Gemini Pro 和阿裏的 Qwen-VL-Plus,與 GPT-4V 正面硬剛,這個有着 SOTA 級别性能的多模态大模型真正做到了 " 人無我有,人有我優 "。
繼 2023 年 4 月的初級版本、2023 年 10 月的 LLaVA-1.5 之後,2024 年 1 月 31 日,微軟研究院又聯合威斯康星大學麥迪遜分校和哥倫比亞大學的研究者共同發布了多模态大模型 LLaVa(Large Language and Vision Assistant)的 1.6 版本。與 GPT-4V 隻提供 API 接口的閉源經營理念不同,LLaVA1.6 的代碼、模型與訓練數據全開源,且在标準評測數據集上跑出了較爲亮眼的成績。
一、LLaVA1.6:卷上加卷
LLaVA 是一種端到端訓練的大型多模态模型,又被稱爲 " 大型語言和視覺助手 "。LLaVa-1.6 是微軟 LLaVa 系列的第三個叠代版本。升級後的 LLaVa-1.6 可謂 buff 疊滿:SOTA 級别的性能,低訓練花銷,多模态的内容生成能力和再一次将開源大模型卷上了新高度。
根據 LLaVa-1.6 官網的标準評測數據集,該模型的表現超越了 Qwen-VL-Plus、CogVLM 和 Yi-VL 等一衆模型,在大部分數據集上的表現都優于 Gemini Pro,在 Math-Vista、MMB-ENG 等部分數據集上的表現甚至勝于 GPT-4V,成爲了開源模型中的 " 性能王者 "。
圖片來源:LLaVA-1.6 官網的标準評測數據
在不拘泥于單一模态的内容生成,具有 Text-to-Text 和 Image-to-Text 兩種模式的同時,LLaVa-1.6 的過人之處還在于更低的訓練數據成本。LLaVA-1.6 能用 32 個 GPU 在一天之内完成訓練,僅需 1.3M 條訓練數據,其計算和訓練數據比其他模型小 100 到 1000 倍。
除了通過對話式 AI 生成文本外,LLaVA-1.6 還可以識别圖片信息并轉化成文字答案。升級後的 LLaVa-1.6 對輸入圖像的分辨率提升到原來的 4 倍以上,使得模型能夠抓住圖片的更多細節。目前支持的圖像分辨率有 672x672、336x1344 以及 1344x336 三種。
LLaVA 模型架構基于大量的圖像 - 文本配對的數據集,将預訓練的 CLIP 視覺編碼器與大型語言模型(Vicuna)通過映射矩陣相連接,來實現視覺和語言特征的匹配。根據該模型的研發團隊成員 Haotian Liu 在 X 平台的介紹,此增強版本建立在其前身的簡約設計和數據效率基礎上,并通過改進視覺指令數據集和 SGLang,提升了 " 推理、OCR 等方面的性能 ",意味着人類向 AGI(通用人工智能)探索的道路上又邁進了一步。
LLaVA-1.6 的研發團隊成員 Haotian Liu 在 X 平台發文原文
二、更适合中國人體質的 GPT-4V
在奮力追平 GPT-4V 的同時,LLaVa-1.6 也展現出強大的零樣本中文能力。
LLaVa-1.6 不需要額外訓練便具備傑出的中文理解和運用能力,其在中文多模态場景下表現優異,使得用戶不必學習複雜的 "prompt" 便可以輕松上手,這對于執行 " 免費(限制文本長度、使用次數等)+ 付費會員 " 制的文心一言們而言無疑提出了新的挑戰。
筆者在對 LLaVa-1.6 模型的 demo 進行嘗試時發現,LLaVa-1.6 對古詩詞等具有中文語言特色的文本内容理解也較爲到位,且能給出中上水平的答案。因而對于有圖生文或文生文需求的用戶而言,LLaVa-1.6 模型不失爲更适合中國人體質的 GPT-4V。
圖片來源:筆者在文心一格平台的使用截圖
更強的視覺對話能力使得 LLaVa-1.6 的智能服務可以覆蓋更多元的場景、具有更強的常識和邏輯推理能力。
圖片來源:用戶在 X 平台對 LLaVA-1.6 的試用截圖
在上圖的應用場景中,用戶發給 LLaVA-1.6 一張機票,詢問與之相關的接機和日程安排。LLaVA-1.6 不僅準确的估計了駕駛時間,還考慮到了可能堵車的情況,頗具一個 " 智能管家 " 的自我修養。
圖片來源:用戶在 X 平台對 LLaVA-1.6 的試用截圖
爲了促進多模态大模型社區的發展,開發者們開源了 LLaVa-1.6 的全部代碼、訓練數據和模型。這無疑有益于人工智能開發的透明度和協作。在較小訓練樣本和開源的前提下,如果可以基于本地數據訓練專業模型,推動解決當前大模型基于雲的産品的責任和隐私問題。
不難發現,輕量化的訓練數據是 LLaVa-1.6 與其他多模态大模型不同的關鍵一點。一直以來,成本的高企便是橫亘在大模型訓練面前的一大難題。随着大模型賽道越來越卷,研發者們開始将關注點從性能轉向成本,在關注大規模參數量的同時着力降低模型的運算和推理成本,實現模型壓縮化和計算高效化。