評估大模型不看輸出看「内在」，上交大新測試指标入選NeurIPS 2024

能夠深入大模型内部的新評測指标來了！

上交大 MIFA 實驗室提出了全新的大模型評估指标Diff-eRank。

不同于傳統評測方法，Diff-eRank不研究模型輸出，而是選擇了分析其背後的隐藏表征。

該方法從信息論和幾何的視角，分析大模型的隐藏表征，量化大語言模型在訓練前後如何剔除數據中的冗餘信息，并以此作爲衡量模型性能的指标。

對于多模态大模型，研究團隊也設計了基于秩的評估方法，用于衡量不同模态之間的對齊程度。

目前，本工作已被 NeurIPS 2024 接收。

将評估深入到大模型内部

在進行 Diff-eRank 的相關工作之前，作者首先提出了這樣一個問題——

一個語言模型是如何從海量的訓練數據中「學習」到知識的？

對于這個問題，前 OpenAI 科學家Ilya Sutskever在 2023 年的演講中曾經這樣說：

大語言模型海量數據中訓練時，會逐步消除其表征空間中的冗餘信息，使得數據的表征變得更加規整、結構化。

這個過程類似于「去噪」，即模型逐漸剔除數據中的無用信息，同時提取出更重要的模式和特征。

傳統的評估方法多集中于模型在下遊任務上的表現，例如準确率 ( Accuracy ) 、交叉熵損失 ( Cross-Entropy Loss ) 等指标。

但這些方法隻關注模型的預測結果與标注标簽之間的比較，無法深入探究模型内部的信息處理過程。

換言之，之前并沒有研究提出可靠的指标來定義和量化這個「去噪」過程。

在此背景下，研究團隊引入了有效秩的概念（Effective Rank，簡寫爲 eRank），用于反應大模型表征空間的不确定性或混亂程度。

這是一種基于模型表征的「有效秩」的評估指标，從信息論和幾何學的角度分析并量化大語言模型在訓練前後如何剔除冗餘信息，并以此衡量模型性能。

大模型在訓練時去除數據中的冗餘信息，eRank 減小，模型的表征變得更加結構化和緊湊。

因此，研究團隊提出了 Diff-eRank，通過分析大語言模型的表征的有效秩在訓練前後的變化幅度，來評估大模型的「去噪能力」。

Diff-eRank 提供了一個基于模型表征的全新評估方法，并且具有良好的理論基礎與可解釋性，爲理解大模型的工作原理提供了獨特的視角。

Diff-eRank 的構造過程

大模型在處理一系列輸入時，它會爲每個 token 生成一個高維表征。

這些表征通常可以捕捉輸入的語義和句法信息。

因此，研究團隊考慮分析這些表征來評估大模型的性能。

具體而言，團隊選擇從幾何和信息論的角度研究這些表征的秩。

秩可以衡量它們這些表征的線性相關程度，對應于表征空間的有效維度（即幾何結構）。

此外，秩還與這些表征所包含的信息量有關：較低的秩代表信息已被結構化或壓縮。

因此，作者通過分析大模型表征的秩來進行模型評估。

協方差矩陣的構建

給定一個句子中 tokens 的表征集，協方差矩陣構建如下：

其中是表征的均值。

有效秩 ( eRank )

由于秩對異常值非常敏感，因此研究團隊使用秩的一種連續形式，稱爲有效秩（eRank）。

給定任何非零矩陣，其有效秩定義爲：

其中，是矩陣的奇異值。

值得注意的是，eRank 與信息論中的熵的概念有着緊密的聯系。

上面構造的協方差實際上就是一個标準的「概率密度矩陣」。

從信息論的角度，此處的有效秩可以理解爲表征空間中的不确定性（具體解釋可閱讀原論文）。

Diff-eRank 的定義

給定一個句子，一個未訓練的語言模型和一個訓練完畢的語言模型，可以得到這兩個模型的表征和。

對于句子，這兩個模型之間的有效秩差異（Diff-eRank）定義如下：

其中是模型在句子上的表征的協方差矩陣，其中。

進一步，當給定一個數據集及其包含的句子，一個未訓練的語言模型和一個訓練完畢的語言模型時，數據集上的 Diff-eRank 可以被定義爲和在所有句子上的有效秩的平均值之差。

由此可以看出，Diff-eRank 反映了模型表征空間的降維，也可以用于衡量大語言模型去除數據中冗餘信息的程度。

較高的 Diff-eRank 表明模型的内部表征更加有序和結構化，體現了模型可以有效提取數據中的模式和規律。

用 Diff-eRank 評估大模型可有效評估語言模型

研究團隊使用 OPT 模型家族，在多個數據集上計算了 Diff-eRank。

由于損失（Loss）是最常用于觀測預訓練模型的指标，因此團隊采用模型在訓練前後交叉熵損失的減小量 ( Reduced Loss ) 作爲對比。

作者在不同類型的數據集（如 Wikipedia、openwebtext2、dolly-15k 和 hh-rlhf）上使用 Diff-eRank 和 Reduced Loss 對 OPT 模型家族進行了評估。

實驗結果發現，Diff-eRank 和 Reduced Loss 都随着模型規模的擴大而上升。

這一趨勢說明更大規模的模型在信息壓縮和冗餘消除方面表現得更加出色。

這也體現了 Diff-eRank 可以從「去噪」角度爲語言模型提供新的評估方法。

爲了進一步驗證 Diff-eRank 的有效性，作者在基準測試數據集上，引入準确率作爲比較指标。

實驗結果如下圖顯示，這三個指标在測試集上基本都在模型規模增加時變大。

而且與 Loss 相比，Diff-eRank 與準确率的趨勢更加一緻，說明 Diff-eRank 可以有效地用于評估語言模型。

除了 OPT 之外，作者還用 Cerebras-GPT 和 OpenELM 家族進行了實驗。

下圖的實驗結果體現 Diff-eRank 在不同模型家族中，都随着模型規模的上升而增加，并與 Reduced Loss 和基準測試準确率趨勢相關，體現了 Diff-eRank 對不同模型家族的穩定性。

多模态大模型也能評估

Diff-eRank 背後的思想還可以拓展用于多模态大模型的評估。

例如，在視覺 - 語言多模态大模型中，可以通過借助表征的有效秩分析視覺和語言表征的匹配程度來衡量模型的模态對齊性能。

對于多模态實驗，作者選擇了兩個最有名的開源多模态大模型：LLaVA-1.5 和 MiniGPT4-v2。

這兩個多模态大模型都使用了一個簡單的連接器來對齊視覺編碼器與大語言模型。

作者在 detail_23k 和 cc_sbu_align 這兩個高質量的多模态指令數據集上進行實驗。

這些數據集中的每條數據都是由圖像、指令和響應組成的三元組。

實驗中，作者将每個三元組的指令和響應拼接作爲文本輸入。

如上圖所示，文章中的實驗包括分析視覺編碼器後圖像表征的有效秩（），連接器的表征的有效秩 ( ) ，以及大語言模型對單個圖像輸入 ( ) 、文本輸入 ( ) 和圖像 - 文本對輸入 ( ) 的表征的有效秩。

爲了衡量多模态大模型的「模态對齊」能力，研究團隊引入了兩個基于 eRank 的不同指标：

圖像壓縮比可以量化圖像表征從視覺編碼器到連接器的有效秩的減少，評估連接器在圖文對齊訓練中壓縮和提煉視覺信息的效率。

圖像 - 文本對齊指标可以評估大語言模型對圖像、文本和圖像 - 文本對的表征的有效秩之間的接近程度，進而反映不同模态的對齊程度。

下面的表中展示了 LLaVA-1.5 和 MiniGPT-v2 在不同數據集上均有較高的對齊分數，說明它們對齊良好。

具體而言，LLaVA-1.5 在「圖像 - 文本對齊」方面優于 MiniGPT-v2，表明在視覺和文本模态之間的對齊更緊密。

這也與 LLaVA-1.5 在大部分測試集分數優于 MiniGPT-v2 的現象一緻。

此外，研究團隊還進行了額外的實驗，計算了對圖像進行順時針旋轉操作後的有效秩。

下面表中的結果表明，所有與圖像相關的量 ( ( ) ) 在執行旋轉後都會上升，這說明多模态模型能感知圖像的細微語義變化，尤其是位置信息。

圖像旋轉後，圖像壓縮比和圖像 - 文本對齊分數均下降，表明連接器在壓縮視覺信息方面效果變差，以及旋轉後的圖像與相應文本對齊性變差。

這些基于秩的方法可以使人們能夠深入了解多模态模型如何對齊不同模态的數據，以及模型如何處理和整合不同形式的輸入數據。

結論與展望

Diff-eRank 作爲一種全新的評估指标，提供了一個獨特的理論視角去理解和分析大模型的一種工作原理。

Diff-eRank 不僅有助于評估大模型的「數據去噪」能力，還可能爲模型壓縮（如剪枝、量化、蒸餾等）等技術的發展提供新的視角。

比如，Diff-eRank 或許有助于識别模型中哪些部分可以在不顯著損失信息的情況下進行壓縮。

作者期待，未來更多的研究者可以進一步拓展 Diff-eRank 的應用。

團隊簡介

MIFA 實驗室全稱 Machine Intelligence Foundations and Applications Laboratory，即機器智能基礎與應用實驗室，隸屬于上海交大清源研究院，負責人爲黃維然副教授。

目前，MIFA 實驗室和多所知名高校、國家實驗室、三甲醫院以及業界大廠保持着緊密的學術合作與交流關系。

本文共同第一作者爲上交大 MIFA 實驗室的博士生魏來和清華大學的博士生譚智泉，通訊作者爲上海交通大學黃維然副教授，共同作者包括來自 William and Mary 的王晉東助理教授。

論文地址：

https://arxiv.org/abs/2401.17139

代碼：

https://github.com/waltonfuture/Diff-eRank

— 完 —

投稿請發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回複你

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~