本文作者:李笑寅
來源:硬 AI
全球數據中心正在面臨放緩困境。
如火如荼的 AI 浪潮推升了數據中心的建設狂潮,但随着大模型對算力的要求每日俱增,數據中心升級的腳步似乎要跟不上持續強勁的 AI 需求了。
知名科技媒體 The Information 近日報道稱,由于高質量數據吃緊以及昂貴的數據中心建造成本,AI 大模型的升級速度正在放緩,可能反過來拖累行業整體和數據中心建設的進展。
與此同時,馬斯克正大舉發力數據中心建設,在 " 鲶魚效應 "(指引入強者後,激發弱者變強)下,一場更高難度的大型數據中心競賽即将打響,數據中心的建設狂潮還能否延續?
" 數據饑餓 " 限制大模型叠代速度
據 OpenAI 員工向 The Information 表示,GPT 叠代放緩的原因之一是:可供大模型預訓練所需的高質量文本和其他數據正在不斷減少。
這些人士表示,在過去幾年中, LLMs 使用來自網站、書籍和其他來源的公開文本和其他數據進行預訓練過程,而如今,這類數據幾乎已被 " 榨幹 "。
據悉,在下一代旗艦模型 "Orion" 中,OpenAI 雖然已經開始嘗試在訓練階段引入 AI 生成數據,但同時又面臨一個新問題,即 Orion 最終可能在某些方面與舊型号的大模型相似。
同時,數據中心昂貴的建造成本可能也難以支撐起叠代所需的龐大算力要求,OpenAI 研究員 Noam Brown 在上個月的 TEDAI 會議上表示,開發更先進的模型在經濟上可能并不可行。
" 我們真的要訓練花費數千億美元或數萬億美元的模型嗎?有時候,擴展(scaling laws)的範式也會崩潰。"
此外,由于大模型叠代升級對服務器集群規模的要求越來越高,所需的功率也呈倍數級提升,散熱問題正越來越成爲數據中心升級的一大阻礙。
馬斯克發力 AI,OpenAI 等擔心被 " 後來居上 "
馬斯克爲 xAI 兌現 " 最大超算中心 " 的承諾的速度之快,已經向 OpenAI 等頭部競争對手成功制造了焦慮。
在今年 7 月 "GenAI Summit SF 2024" 人工智能峰會上,馬斯克旗下的 AI 初創公司 xAI 宣布,計劃在幾個月内建成一個約 10 萬 H100 芯片的數據中心,号稱是 " 世界上最強大的 AI 訓練集群 ",旨在訓練更強大的 AI 模型。
同月,馬斯克社交平台 "X" 上宣布,xAI 公司已開始在 "Supercluster" 上進行訓練,該集群由 10 萬個液冷英偉達的 H100 GPU 組成,在單個遠程直接數據存取(RDMA)結構上運行。
馬斯克的豪賭,基于 " 縮放定律 "(scaling laws):數據中心規模越大、訓練出來的大模型就越好。
據悉,"Supercluster" 的集群規模是 Meta 等科技巨頭已有數據中心規模的數倍。對比來看,OpenAI 訓練 GPT4,需要用到 25000 塊 A100 GPU,僅爲 Supercluster 的 1/20。
并且,據英偉達方面向媒體透露,該數據中心僅用 122 天就建成,而根據其 CEO 黃仁勳的說法,這種這種規模的 GPU 集群通常需要三年的時間來規劃和設計,還額外需要一年的時間才能投入使用。
盡管 xAI 的人工智能工具仍遠遠落後于 OpenAI,但他構建數據中心的速度引起了 Sam Altman 的警惕。據一位知情人士向媒體透露,馬斯克在 X 上官宣了 Supercluster 的建成後,Altman 與微軟的基礎設施高管發生了争執,擔心 xAI 的發展速度比微軟快。