IT 之家 9 月 21 日消息,科技媒體 marktechpost 昨日(9 月 20 日)發布博文,報道了英偉達(Nvidia)最新發布的論文,介紹了多模态大語言模型系列 NVLM 1.0。
多模态大型語言模型(MLLM)
多模态大型語言模型(MLLM)所創建的 AI 系統,能夠無縫解讀文本和視覺數據等,彌合自然語言理解和視覺理解之間的差距,讓機器能夠連貫地處理從文本文檔到圖像等各種形式的輸入。
多模态大型語言模型在圖像識别、自然語言處理和計算機視覺等領域擁有廣闊應用前景,改進人工智能整合和處理不同數據源的方式,幫助 AI 朝着更複雜的應用方向發展。
英偉達 NVLM 1.0
NVLM 1.0 系列包括 NVLM-D、NVLM-X 和 NVLM-H 三種主要架構。每個架構都結合先進的多模态推理功能與高效的文本處理功能,從而解決了以往方法的不足之處。
NVLM 1.0 的一個顯著特點是在訓練過程中加入了高質量純文本監督微調(SFT)數據,這使得這些模型在視覺語言任務中表現出色的同時,還能保持甚至提高純文本性能。
研究團隊強調,他們的方法旨在超越 GPT-4V 等現有專有模型和 InternVL 等開放式替代模型。
NVLM 1.0 模型采用混合架構來平衡文本和圖像處理:
NVLM-D:純解碼器模型,以統一的方式處理兩種模式,因此特别擅長多模式推理任務。
NVLM-X:采用交叉注意機制,提高了處理高分辨率圖像時的計算效率
NVLM-H:混合了上述兩種架構的優勢,在保持文本推理所需的效率的同時,實現了更詳細的圖像理解。
這些模型結合了高分辨率照片的動态平鋪技術,在不犧牲推理能力的情況下顯著提高了 OCR 相關任務的性能。
性能
在性能方面,NVLM 1.0 模型在多個基準測試中取得了令人印象深刻的成績。
歸功于在訓練過程中集成了高質量的文本數據集,在 MATH 和 GSM8K 等純文本任務中,NVLM-D1.0 72B 模型比其純文本骨幹提高了 4.3 分。
在視覺問題解答和推理任務中,這些模型還表現出了強大的視覺語言性能,在 VQAv2 數據集上的準确率爲 93.6%,在 AI2D 上的準确率爲 87.4%。
在 OCR 相關任務中,NVLM 模型的表現明顯優于現有系統,在 DocVQA 和 ChartQA 數據集上的準确率分别爲 87.4% 和 81.7%,突出顯示了其處理複雜視覺信息的能力。
NVLM-X 和 NVLM-H 模型也取得了這些成績,它們在處理高分辨率圖像和多模态數據方面表現出色。
研究的主要發現之一是,NVLM 模型不僅在視覺語言任務中表現出色,而且還保持或提高了純文本性能,這是其他多模态模型難以達到的。
例如,在基于文本的推理任務(如 MMLU)中,NVLM 模型保持了較高的準确率,在某些情況下甚至超過了純文本模型。
想象一下在自動駕駛汽車中的應用場景。NVLM 1.0 可以通過攝像頭實時獲取道路信息,并與車輛導航系統進行語言溝通。
它不僅能識别交通标志,還能理解複雜路況下的人類指令,例如 " 如果前方有施工,請尋找替代路線 "。這得益于其強大的視覺 - 語言處理能力以及出色的文本推理能力,使得自動駕駛更加智能、安全、可靠。
小結
英偉達開發的 NVLM 1.0 模型代表了多模态大型語言模型的重大突破,該模型通過在多模态訓練中集成高質量文本數據集,并采用動态平鋪和高分辨率圖像平鋪标記等創新架構設計,解決了在不犧牲性能的前提下平衡文本和圖像處理的關鍵難題。
NVLM 系列模型不僅在視覺語言任務方面超越了領先的專有系統,而且還保持了卓越的純文本推理能力,讓多模态人工智能系統的發展又向前邁進一大步。
IT 之家附上參考地址