傳統的大語言模型訓練需要依賴 " 純淨數據 " ——那些經過仔細篩選、符合标準語法且邏輯嚴密的文本。但如果這種嚴格的數據過濾,并不像我們想象中那般重要呢?
這就像教孩子學語言:傳統觀點認爲他們應該隻聽語法完美的标準發音。但現實情況是,孩童恰恰是在接觸俚語、語法錯誤和背景噪音的過程中,依然能夠掌握語言能力。
來自北大的研究人員通過在訓練數據中刻意添加随機亂碼進行驗證。他們試圖測試模型在性能受損前能承受多少 " 壞數據 "。
實驗結果表明,即便面對高達 20% 的 " 垃圾數據 ",訓練依然可以正常進行,且 Next-token Prediction ( NTP ) loss 受到的影響不足 1%!他們不僅揭示了噪聲與模型性能的複雜關系,還提出了一種創新的 " 局部梯度匹配 " 方法,讓模型在噪聲環境中依然保持強勁表現。

是什麽:随機噪音會有什麽影響?
研究者利用 OpenWebText 數據集,訓練了多個 GPT-2 相同架構和參數量的語言模型。他們首先生成了一串範圍在 0 到 50256(GPT-2 tokenizer 的大小)的整數,其中每個數都遵循 0 到 50256 的均勻分布。這樣是爲了模拟由于解碼錯誤或網頁崩潰導緻的随機亂碼經過 tokenizer 之後的結果。之後,研究團隊向 OpenWebText 中注入占比 1%-20% 的随機噪聲,正常進行 Next-token Prediction 的預訓練。

實驗結果揭示了一個反直覺現象:盡管 NTP loss 受到噪音的影響有些微提升,但是增加幅度遠小于噪音占比。即使 20% 的數據被污染,模型的下一個詞預測損失僅上升約 1%。

更令人驚訝的是,在 arXiv 和 Wikipedia 語料測試中,含噪模型甚至展現出更低的 NTP loss。

這些反常現象的出現引發了研究團隊的思考。他們想要知道這種現象出現的背後原因。
爲什麽:理論角度分析随機噪音
遵照之前的理論工作,研究團隊把 NTP 過程建模成在 ( 給定前綴 , 下一 token ) 的聯合概率分布上的分類任務。用 P^c 表示幹淨分布,P^n 表示噪音分布,作者指出,我們真正關心的不是模型在噪音 P^n 上的損失,而是在噪音分布上訓練出來的模型 h 與最優模型 h* 在幹淨分布 P^c 上的 NTP loss 差距。
爲了給出證明,研究團隊首先注意到,在随機亂碼中找到一段有意義文本的概率極低。用數學語言來描述,這意味着幹淨分布 P^c 和噪音分布 P^n 的支撐集(support set)的交集可以認爲是空集。

基于這條假設,研究團隊成功證明,當噪音占比 α 足夠小時,P^n 的存在不改變 NTP loss 的全局最小值。哪怕 α 足夠大,噪音對損失函數帶來的影響也遠小于其占比。

由于 Assumption 1 并不隻在随機噪音時成立,因此結論可以推廣到其他情況。最直接的場景便是多語言模型的訓練。顯然,在一種語言(英語)看來,另一種語言(漢語)就是随機亂碼,他們之間的 token 彼此是不重合的,兩者對應的分布自然沒有交集,也就滿足了 Assumption 1。因此,Proposition 1 表明,在多語言數據集中進行預訓練,單個語言的性能不會受到太大的影響。這就解釋了多語言模型的成功。此外,Proposition 1 還可以解釋爲什麽在充滿背景噪音的數據集上訓練的音頻模型可以成功。
爲了進一步檢驗上述理論,研究團隊還随機生成了先驗分布服從高斯分布的随機噪音。由于高斯分布有規律可循,這種噪音對應的 NTP loss 更低。按照 Proposition 1 的結論,更低 NTP loss 的噪音 P^n 對模型性能的影響更小。實驗結果驗證了這一預言,也就證明了 Proposition 1 的正确性。

怎麽做:如何彌補随機噪音的影響
盡管預訓練損失變化微弱,下遊任務卻暴露出隐患。實驗顯示,在高斯噪音上訓練的模型,盡管其相比随機噪音對應模型的 NTP loss 更低,但在文本分類下遊任務中的準确率卻下降高達 1.5%。這種 " 損失 - 性能解耦 " 現象表明,預訓練指标 NTP loss 無法全面反映模型的實際能力。研究者指出,噪聲會扭曲特征空間的梯度分布,導緻微調時模型對細微擾動過于敏感。
針對這一挑戰,團隊提出了一種即插即用的解決方案——局部梯度匹配損失(LGM)。具體來說,由于在下遊任務應用大模型時幾乎不會從頭預訓練,研究團隊在黑盒模型的假設下提出了 LGM 這一微調方法。其無需訪問模型參數,而是通過向特征添加高斯噪聲并約束原始 / 擾動特征的梯度差異,直接增強分類頭的抗噪能力。其核心思想在于:迫使模型在特征擾動下保持決策一緻性,從而彌合噪聲導緻的特征偏移。對于黑盒模型提取的特征 t,首先添加一定程度高斯擾動得到 hat{t},然後将分類頭關于 t 和 hat{t} 的梯度差作爲損失函數


實驗部分,團隊在 8 個自然語言理解和 14 個視覺分類數據集上驗證了模型性能。
對于受到噪音影響的模型,LGM 可以顯著增強性能。

出乎意料的是,當把 LGM 用在幹淨模型(如 Llama-3、ViT-L)上時,下遊任務準确率仍可提升 1%-3%。


爲了解釋 LGM 的成功,研究團隊從 Sharpness-Aware Minimization 的角度,證明了 LGM 損失和損失函數的光滑程度、對輸入的敏感程度有緊密關系:

啓示與展望:數據清洗的新思考
這項研究爲大規模預訓練提供了全新視角:
效率革命:适度保留随機噪聲可降低數據清洗成本,尤其對資源有限的團隊意義重大
理論擴展:理論框架可用于解釋多語言模型的成功,還可用于其他模态
數據增強:可控噪聲注入或成新型正則化手段,提升模型泛化能力
當然,研究也存在局限:實驗僅基于 GPT-2 規模模型,超大規模模型(如 GPT-4)的噪聲耐受性仍需驗證。團隊計劃進一步探索噪聲類型與模型容量的動态關系,以及 LGM 在其他模态中的應用。
論文地址 :
https://arxiv.org/abs/2502.06604
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回複你

一鍵關注 點亮星标
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!