AI 胃口太大,人類的語料數據已經不夠吃了。
來自 Epoch 團隊的一篇新論文表明,AI 不出 5 年就會把所有高質量語料用光。
要知道,這可是把人類語言數據增長率考慮在内預測出的結果,換而言之,這幾年人類新寫的論文、新編的代碼,哪怕全都喂給 AI 也不夠。
照這麼發展下去,依賴高質量數據提升水平的語言大模型,很快就要迎來瓶頸。
已經有網友坐不住了:
這太荒謬了。人類無需閱讀互聯網所有内容,就能高效訓練自己。
我們需要更好的模型,而不是更多的數據。
還有網友調侃,都這樣了不如讓 AI 吃自己吐的東西:
可以把 AI 自己生成的文本當成低質量數據喂給 AI。
讓我們來看看,人類剩餘的數據還有多少?
文本和圖像數據 " 存貨 " 如何?
論文主要針對文本和圖像兩類數據進行了預測。
首先是文本數據。
數據的質量通常有好有壞,作者們根據現有大模型采用的數據類型、以及其他數據,将可用文本數據分成了低質量和高質量兩部分。
高質量語料,參考了 Pile、PaLM 和 MassiveText 等大型語言模型所用的訓練數據集,包括維基百科、新聞、GitHub 上的代碼、出版書籍等。
低質量語料,則來源于 Reddit 等社交媒體上的推文、以及非官方創作的同人小說(fanfic)等。
根據統計,高質量語言數據存量隻剩下約 4.6 × 10^12~1.7 × 10^13 個單詞,相比當前最大的文本數據集大了不到一個數量級。
結合增長率,論文預測高質量文本數據會在2023~2027 年間被 AI 耗盡,預估節點在 2026 年左右。
看起來實在有點快……
當然,可以再加上低質量文本數據來救急。根據統計,目前文本數據整體存量還剩下 7 × 10^13~7 × 10^16 個單詞,比最大的數據集大 1.5~4.5 個數量級。
如果對數據質量要求不高,那麼 AI 會在2030 年 ~2050 年之間才用完所有文本數據。
再看看圖像數據,這裡論文沒有區分圖像質量。
目前最大的圖像數據集擁有 3 × 10^9 張圖片。
據統計,目前圖片總量約有 8.11 × 10^12~2.3 × 10^13 張,比最大的圖像數據集大出 3~4 個數量級。
論文預測 AI 會在2030~2070 年間用完這些圖片。
顯然,大語言模型比圖像模型面臨着更緊張的 " 缺數據 " 情況。
那麼這一結論是如何得出的呢?
計算網民日均發文量得出
論文從兩個角度,分别對文本圖像數據生成效率、以及訓練數據集增長情況進行了分析。
值得注意的是,論文統計的不都是标注數據,考慮到無監督學習比較火熱,把未标注數據也算進去了。
以文本數據為例,大部分數據會從社交平台、博客和論壇生成。
為了估計文本數據生成速度,有三個因素需要考慮,即總人口、互聯網普及率和互聯網用戶平均生成數據量。
例如,這是根據曆史人口數據和互聯網用戶數量,估計得到的未來人口和互聯網用戶增長趨勢:
再結合用戶生成的平均數據量,就能計算出生成數據的速率。(由于地理和時間變化複雜,論文簡化了用戶平均生成數據量計算方法)
根據這一方法,計算得出語言數據增長率在 7% 左右,然而這一增長率會随着時間延長逐漸下降。
預計到 2100 年,我們的語言數據增長率會降低到1%。
同樣類似的方法分析圖像數據,當前增長率在 8% 左右,然而到 2100 年圖像數據增長率同樣會放緩至 1% 左右。
論文認為,如果數據增長率沒有大幅提高、或是出現新的數據來源,無論是靠高質量數據訓練的圖像還是文本大模型,都可能在某個階段迎來瓶頸期。
對此有網友調侃,未來或許會有像科幻故事情節一樣的事情發生:
人類為了訓練 AI,啟動大型文本生成項目,大家為了 AI 拼命寫東西。
他稱之為一種 " 對 AI 的教育 ":
我們每年給 AI 送 14 萬到 260 萬單詞量的文本數據,聽起來似乎比《黑客帝國》中人類當電池要更酷?
你覺得呢?
論文地址:
https://arxiv.org/abs/2211.04325
參考鍊接:
https://twitter.com/emollick/status/1605756428941246466