Scaling Law 不僅在放緩,而且不一定總是适用!
尤其在文本分類任務中,擴大訓練集的數據量可能會帶來更嚴重的數據沖突和數據冗餘。
要是類别界限不夠清晰,數據沖突現象就更明顯了。
而文本分類又在情感分析、識别用戶意圖等任務中極爲重要,繼而對 AI Agent 的性能也有很大影響。
最近,vivo AI Lab 研究團隊提出了一種數據質量提升(DQE)的方法,成功提升了 LLM 在文本分類任務中的準确性和效率。
實驗中,DQE 方法以更少的數據獲得更高的準确率,并且隻用了近一半的數據量,就能有效提升訓練集的訓練效率。
作者還對全量數據微調的模型和 DQE 選擇的數據微調的模型在測試集上的結果進行了顯著性分析。
結果發現 DQE 選擇的數據在大多數測試集上都比全量數據表現出顯著的性能提升。
目前,此項成果已被自然語言處理頂會 COLING 2025 主會接收。
數據質量提升方法長啥樣?
在自然語言處理中,文本分類是一項十分重要的任務,比如情感分析、意圖識别等,尤其現在企業都在推出各自的 AI Agent,其中最重要的環節之一,就是識别用戶的意圖。
不同于傳統的 BERT 模型,基于自回歸的大語言模型的輸出往往是不可控的,而分類任務對輸出的格式要求較高。
通過在提示詞中加入 few-shot 可以有效地改善這一現象,但是基于提示詞的方法帶來的提升往往有限。指令微調可以有效地改善模型的性能。
在文本分類任務中,缺乏一種有效的手段來獲取高質量的數據集。OpenAI 提出了縮放定律(Scaling Law),認爲大語言模型的最終性能主要取決于三個因素的縮放:計算能力、模型參數和訓練數據量。
然而這一定律并不總是适用,尤其在文本分類任務中,擴大訓練集的數據量會可能會帶來更加嚴重的數據沖突現象和數據冗餘問題。尤其類别的界限不夠清晰的時候,數據沖突的現象更加明顯。
下面是 vivo AI Lab 團隊提出的數據質量提升(DQE)方法的具體方法設計。
首先,作者對訓練集進行了初步的數據清洗工作,包含處理具有缺失值的數據、query 和标簽重複的數據以及标簽不一緻數據(同一條 query 對應多個不同的标簽)。
然後,使用文本嵌入模型,将文本轉換爲語義向量。再通過貪婪采樣的方法,随機初始化一條數據作爲初始向量,然後每次選擇距離向量中心最遠的數據加入到新的集合中,以提升數據的多樣性。
接着,更新這個集合的向量中心,不斷的重複這個過程,直到收集了 50% 的數據作爲 sampled,剩下未被選中的 50% 的數據集作爲 unsampled,然後使用 sampled 數據集微調大語言模型預測 unsampled。
通過結合向量檢索的方式,将 unsampled 中預測結果錯誤的數據分爲 Uncovered、Difficult 和 Noisy 三種類型。
下面是三種類型的數據的識别原理:
Uncovered:主要指 sampled 中未覆蓋的數據,如果預測錯誤的數據與最相似的數據具有相同的标簽,并且最相似的數據位于 unsampled 中,則認爲該數據相關的特征可能沒有參與 sampled 模型的微調,從而導緻 unsampled 中的該條預測結果錯誤。
Difficult:主要指 sampled 中難以學會的困難樣本,如果預測錯誤的數據與最相似的數據具有相同的标簽,并且最相似的數據位于 sampled,則認爲該數據相關的特征已經在 sampled 中參與過模型的微調,預測錯誤可能是因爲這條數據很難學會。
Noisy:主要是标簽不一緻導緻的噪聲數據,如果預測錯誤的數據與最相似的數據具有不同的标簽。則懷疑這兩條數據是噪聲數據。大多數文本分類任務的數據集都是共同手工标注或者模型标注獲得,都可能存在一定的主觀性,尤其在類别界限不清晰的時候,标注錯誤的現象無法避免。這種情況下,作者通過提示詞,使用 GPT-4o 進一步輔助判斷。
效果如何?
作者基于多機多卡的 L40s 服務器上通過 swift 框架進行了全參數微調,選擇開源的 Qwen2.5-7B-Instruct 模型作爲本次實驗的基礎模型。
作者與 PaperWithCode 中收錄的最好的結果以及全量數據微調的方法進行了對比,作者分别在 MR、CR、IMDb、SST-2、SST-5、AG News 數據集中進行了對比實驗。
從實驗結果可以看出,DQE 方法以更少的數據獲得更高的準确率,并且隻用了近乎一半的數據量,可以有效地提升訓練集的訓練效率。
同時,作者頁進一步對全量數據微調的模型和 DQE 選擇的數據微調的模型在測試集上的結果進行了顯著性分析。将預測結果正确的數據賦值爲 1,将預測結果錯誤的數據賦值爲 0,通過 t 檢驗來評估模型之間性能差異的統計顯著性。
從表中可以發現DQE 選擇的數據在大多數測試集上都比全量數據表現出顯著的性能提升。
與傳統的 BERT 模型不同的是,生成式的模型往往是不可控的,作者進一步分析了指令跟随結果。
結果表明,不管是全量數據微調還是 DQE 方法微調,都可以有效地提升大語言模型的指令跟随能力,按照預期的結果和格式輸出。
對于分類任務來講,當數據量足夠大時,很難避免标簽噪聲現象。即便是被各大頂級學術期刊和會議廣泛使用的數據集,也無法避免标簽噪聲現象。
作者分析了一部分通過實驗找出的噪聲數據,并且給出了開源數據集中的标簽噪聲的示例。
值得注意的是,在數據采樣過程中,本研究使用貪心算法将數據集劃分爲 sampled 和 unsampled。此外,作者根據文本相似度将 unsampled 分類爲 uncovered、difficult 和 noisy 數據。
接下來,分析 sampled 中的這三種類型:
由于該數據将用于最終的訓練集,因此它不包含 uncovered。
關于 difficult,将來自 unsampled 中識别爲 difficult 的樣本會加入到最終的訓練集,這 uncovered 中的 difficult 和 sampled 是成對存在的,從而部分減輕了采樣數據中的 difficult 問題。
對于 noisy 數據,使用 DQE 可以在 sampled 和 unsampled 之間識别出大多數成對的噪聲實例。
由于使用 sampled 貪婪采樣策略,在 sampled 内遇到成對的相似噪聲數據的概率會相對較低。從理論上解釋了本方案的有效性。
論文地址:https://arxiv.org/abs/2412.06575
— 完 —
投稿請發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回複你
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>