什麽?Scaling Law 最早是百度 2017 年提的?!
Meta 研究員翻出經典論文:
大多數人可能不知道,Scaling law 原始研究來自 2017 年的百度,而非三年後(2020 年)的 OpenAI。
此研究由吳恩達主持,來自百度矽谷人工智能實驗室 ( SVAIL ) 系統團隊。
他們探讨了深度學習中訓練集大小、計算規模和模型精度之間的關系,并且通過大規模實證研究揭示了深度學習泛化誤差和模型大小的縮放規律,還在圖像和音頻上進行了測試。
隻不過他們使用的是 LSTM,而不是 Transformer;也沒有将他們的發現命名爲「Law」。
再回頭看,其中一位作者 Gregory Diamos 給自己當年在百度的介紹還是LLM Scaling Law Researcher。
又有一網友發現,OpenAI 論文還引用了 2019 年這位作者 Gregory Diamos 等人的調查。但卻不知道他們 2017 年就有了這麽一項工作。
網友們紛紛表示這篇論文非常值得一讀,而且完全被低估。
來趕緊看看這篇論文。
深度學習 Scaling 是可預測的
在深度學習領域,随着模型架構的不斷探索、訓練數據集的不斷增大以及計算能力的不斷提升,模型的性能也在不斷提高。
然而,對于訓練集大小、計算規模和模型精度之間的具體關系,一直缺乏深入的理解。
本文通過大規模的實證研究,對多個機器學習領域(如機器翻譯、語言建模、圖像分類和語音識别)進行了測試,發現了一些規律:
泛化誤差(模型在新數據上的表現誤差)與訓練集大小呈現幂律關系,即随着訓練集的增大,泛化誤差會以一定的幂次下降。
模型大小與與數據大小也存在 Scaling(縮放)關系,通常模型大小的增長速度比數據大小的增長速度慢。
具體來說,結合以往工作,團隊将注意力集中在準确估計學習曲線和模型大小的縮放趨勢上。
按照一般測量方法,是選擇最先進的 SOTA 模型,并在訓練集的更大子集(碎片)上訓練這些模型的 " 超參數縮減 " 版本,以觀察模型的準确性如何随着訓練集的大小而增長。
因此針對這四個領域,機器翻譯、語言建模、圖像分類和語音識别,找到了他們在大型數據集上顯示出 SOTA 泛化誤差的模型架構。
這裏的 " 大型數據集 " 是指規模可以縮小 2-3 個數量級,但仍足以進行有價值的模型架構研究的訓練集。他們爲某些 ML 領域選擇了一種以上的模型架構,以比較它們的擴展行爲。
機器翻譯
團隊注意到,随着訓練集規模的增大,優化變得更加困難,而且模型會出現容量不足的情況,因此經驗誤差會偏離幂律趨勢。
詞語言模型
這一結果表明,最佳拟合模型随訓練分片大小呈次線性增長。
字符級語言模型
爲了測試字符級語言建模,他們訓練了深度爲 10 的循環高速公路網絡(RHN),結果發現該網絡在十億單詞數據集上能達到最先進的(SOTA)準确率。
圖像分類。
圖像分類同樣呈現出幂律學習曲線和模型大小的縮放關系。并且還表明,在非常小的訓練集上,準确率會在接近随機猜測的水平上趨于平穩。
語音識别。
團隊訓練了一系列跨度較大的模型尺寸,所以針對每個訓練數據大小得出的模型尺寸縮放結果,其意義不像在語言模型(LMs)或圖像分類中那麽明顯。
随着數據量的增加,大多數模型會經曆幂律泛化改進,直至數據量接近其有效容量。在這種情況下,參數爲 170 萬的模型的準确率在大約 170 小時的音頻數據時開始趨于平穩,而參數爲 600 萬的模型在大約 860 小時的音頻數據時趨于平穩(也就是說,大約是前者的 5 倍,這與模型尺寸的差異情況類似)。更大的模型(例如,參數爲 8700 萬的模型)在更大的數據集規模下,其泛化誤差也更接近最佳拟合趨勢。
最後對于這一發現,他們表示,這些比例關系對深度學習的研究、實踐和系統都有重要影響。它們可以幫助模型調試、設定準确度目标和數據集增長決策,還可以指導計算系統設計,并強調持續計算擴展的重要性。
博客緻謝中還有 Ilya 的名字
此次研究主要是由當年吳恩達主持下,百度矽谷人工智能實驗室 ( SVAIL ) 系統團隊。
當時的一群合著者們已經各自去到各個機構實驗室、大廠繼續從事大模型相關的研究。
在當年博客緻謝中,還出現了 Ilya 的名字,感謝他們參與了這一讨論。
兩年後,也就是 2019 年,其中一位作者 Gregory Diamos 又帶領團隊探讨了深度學習的計算挑戰。
後面的 OpenAI 論文正是引用了這篇論文的調查讨論了 Scaling Law。
值得一提的是,Anthropic CEODario Amodei在百度研究院吳恩達團隊工作過,他對 Scaling Law 的第一印象也是那時研究語音模型産生的。
Amodei 剛開始研究語音神經網絡時有一種 " 新手撞大運 " 的感覺,嘗試把模型和數據規模同時擴大,發現模型性能随着規模的增加而不斷提升。
最初,他以爲這隻是語音識别系統的特例。但到了 2017 年,看到 GPT-1 的結果後意識到這種現象在語言模型上同樣适用。
當年(2015 年)他一作發表的論文 Deep Speech,合著者中這位 Sharan Narang 正是兩年後這篇論文的主要作者之一。如今後者先後去到了谷歌擔任 PaLM 項目 TL 大模型負責人,然後現在是 Meta 當研究員。
如今這一 " 冷知識 " 再次出現在大家的視野,讓不少人回溯并重溫。
這當中還有人進一步表示:真正的 OG 論文使用了seq2seq LSTM,并且确定了參數計算曲線。
當年的一作正是 Ilya Sutskever。
參考鏈接:
[ 1 ] https://arxiv.org/abs/1512.02595 [ 2 ] https://arxiv.org/abs/1909.01736
[ 3 ] https://research.baidu.com/Blog/index-view?id=89
[ 4 ] https://www.linkedin.com/in/gregory-diamos-1a8b9083/ [ 5 ] https://www.linkedin.com/in/dario-amodei-3934934/
[ 6 ] https://x.com/jxmnop/status/1861473014673797411?s=46&t=iTysI4vQLQqCNJjSmBODPw
— 完 —
「MEET2025 智能未來大會」
火熱報名中
定檔 12 月 11 日!李開複博士、周志華教授、智源研究院王仲遠院長都來量子位MEET2025 智能未來大會探讨行業破局之道了!
最新嘉賓陣容在此,觀衆報名通道已開啓!歡迎來到 MEET 智能未來大會,期待與您一起預見智能科技新未來
左右滑動查看最新嘉賓陣容
點這裏關注我,記得标星哦~
一鍵三連「點贊」、「分享」和「在看」
科技前沿進展日日相見 ~
>