英偉達 NVLM 1.0 引領多模态 AI 變革，媲美 GPT-4o

IT 之家 9 月 21 日消息，科技媒體 marktechpost 昨日（9 月 20 日）發布博文，報道了英偉達（Nvidia）最新發布的論文，介紹了多模态大語言模型系列 NVLM 1.0。

多模态大型語言模型（MLLM）

多模态大型語言模型（MLLM）所創建的 AI 系統，能夠無縫解讀文本和視覺數據等，彌合自然語言理解和視覺理解之間的差距，讓機器能夠連貫地處理從文本文檔到圖像等各種形式的輸入。

多模态大型語言模型在圖像識别、自然語言處理和計算機視覺等領域擁有廣闊應用前景，改進人工智能整合和處理不同數據源的方式，幫助 AI 朝着更複雜的應用方向發展。

英偉達 NVLM 1.0

NVLM 1.0 系列包括 NVLM-D、NVLM-X 和 NVLM-H 三種主要架構。每個架構都結合先進的多模态推理功能與高效的文本處理功能，從而解決了以往方法的不足之處。

NVLM 1.0 的一個顯著特點是在訓練過程中加入了高質量純文本監督微調（SFT）數據，這使得這些模型在視覺語言任務中表現出色的同時，還能保持甚至提高純文本性能。

研究團隊強調，他們的方法旨在超越 GPT-4V 等現有專有模型和 InternVL 等開放式替代模型。

NVLM 1.0 模型采用混合架構來平衡文本和圖像處理：

NVLM-D：純解碼器模型，以統一的方式處理兩種模式，因此特别擅長多模式推理任務。

NVLM-X：采用交叉注意機制，提高了處理高分辨率圖像時的計算效率

NVLM-H：混合了上述兩種架構的優勢，在保持文本推理所需的效率的同時，實現了更詳細的圖像理解。

這些模型結合了高分辨率照片的動态平鋪技術，在不犧牲推理能力的情況下顯著提高了 OCR 相關任務的性能。

性能

在性能方面，NVLM 1.0 模型在多個基準測試中取得了令人印象深刻的成績。

歸功于在訓練過程中集成了高質量的文本數據集，在 MATH 和 GSM8K 等純文本任務中，NVLM-D1.0 72B 模型比其純文本骨幹提高了 4.3 分。

在視覺問題解答和推理任務中，這些模型還表現出了強大的視覺語言性能，在 VQAv2 數據集上的準确率爲 93.6%，在 AI2D 上的準确率爲 87.4%。

在 OCR 相關任務中，NVLM 模型的表現明顯優于現有系統，在 DocVQA 和 ChartQA 數據集上的準确率分别爲 87.4% 和 81.7%，突出顯示了其處理複雜視覺信息的能力。

NVLM-X 和 NVLM-H 模型也取得了這些成績，它們在處理高分辨率圖像和多模态數據方面表現出色。

研究的主要發現之一是，NVLM 模型不僅在視覺語言任務中表現出色，而且還保持或提高了純文本性能，這是其他多模态模型難以達到的。

例如，在基于文本的推理任務（如 MMLU）中，NVLM 模型保持了較高的準确率，在某些情況下甚至超過了純文本模型。

想象一下在自動駕駛汽車中的應用場景。NVLM 1.0 可以通過攝像頭實時獲取道路信息，并與車輛導航系統進行語言溝通。

它不僅能識别交通标志，還能理解複雜路況下的人類指令，例如 " 如果前方有施工，請尋找替代路線 "。這得益于其強大的視覺 - 語言處理能力以及出色的文本推理能力，使得自動駕駛更加智能、安全、可靠。

小結

英偉達開發的 NVLM 1.0 模型代表了多模态大型語言模型的重大突破，該模型通過在多模态訓練中集成高質量文本數據集，并采用動态平鋪和高分辨率圖像平鋪标記等創新架構設計，解決了在不犧牲性能的前提下平衡文本和圖像處理的關鍵難題。

NVLM 系列模型不僅在視覺語言任務方面超越了領先的專有系統，而且還保持了卓越的純文本推理能力，讓多模态人工智能系統的發展又向前邁進一大步。

IT 之家附上參考地址