相比智能水平提升,成本下降或許更加重要
上周,AI 行業發生了兩件大事。
1 月 19 日,Meta 首席執行官紮克伯格宣布,Meta 内部正在訓練下一代模型 Llama 3。截至今年年底,Meta 将會有近 35 萬塊 H100 搭建的基礎設施。1 月 21 日,有媒體爆出消息,OpenAI CEO 奧特曼正在籌集數十億美元,建立一個全球性的 AI 芯片工廠網絡。
這兩件事其實都和一個東西有關——算力。
在生成式 AI 快速爆發的時代,算力短缺是運行 AI 模型面臨的主要困難,GPT-4、Gemini、Llama 2 和其他模型嚴重依賴 H100 GPU,但 H100 産能卻嚴重受限。即使像微軟、Meta 這樣大型科技公司,也需要提前數年預定産能,才能獲得足夠的新型芯片,更不用說 OpenAI 了。
AI 産業算力短缺的根源在于,在摩爾定律主導下,性能每 18-24 個月翻一番的芯片,難以滿足大模型參數規模的指數級增長。用 OpenAI 的話說,每年訓練 AI 模型所需算力增長幅度高達 10 倍。這是瓶頸,也是機會。在新興技術的故事裏,成本才是影響大模型落地。
換言之,這場以大模型爲名的千億美金級豪賭實驗,最終能否将世界帶到新的摩爾時代,并不僅僅是看智能水平能提升到什麽程度,更取決于模型發展會不會出現類似于摩爾定律的規律。
01 AI 芯片,算力計算的 " 高地 "
上周,Meta 首席執行官紮克伯格宣布,到 2024 年底 Meta 将擁有 35 萬塊 H100,擁有近 60 萬個 GPU 等效算力。
35 萬塊 H100,是個什麽概念呢?衆所周知,訓練大模型往往是最花費算力的階段。OpenAI 訓練 GPT-4,用了大約 25000 塊 A100 GPU。作爲 A100 的升級版,據 Lambda 測算, H100 的訓練吞吐量爲 A100 的 160%。也就是說,屆時 Meta 擁有的算力是訓練 GPT-4 所用算力的 20 倍以上。
買這麽多算力,紮克伯格自然也花了大價錢。目前,一塊英偉達 H100 售價爲 2.5 萬至 3 萬美元,按 3 萬美元計算,意味着小紮的公司僅購買算力就需要支付約 105 億美元,更不用說電費了。
而這些算力很大部分将用于訓練 "Llama 3" 大模型。紮克伯格表示,Meta 将負責任地、安全地訓練未來模型的路線圖。
在打算力主意的不止是小紮,還有 OpenAI 的奧特曼。同樣是上周爆出的消息,OpenAI CEO 奧特曼正在籌集數十億美元,建立一個全球性的 AI 芯片工廠網絡。
目前,他正在和多家潛在的大型投資者進行談判,包括總部設在阿布紮比的 G42 和軟銀集團。根據美國媒體的報道,僅在 OpenAI 與 G42 的談判中,涉及金額就接近 80 億到 100 億美元。
不過與小紮準備打富裕仗不同,奧特曼親自下場制造 AI 芯片,更多是一種無奈。據外媒報道,這一事件背後的原因很可能就是,OpenAI 已經無「芯」訓練「GPT-5」了。
此前,奧特曼表示,OpenAI 已經嚴重受到 GPU 限制,不得不推遲了衆多短期計劃(微調、專用容量、32k 上下文窗口、多模态),甚至還一度影響到了 API 的可靠性和速度。
除了自己造芯外,OpenAI 也在嘗試通過其他方式來獲得更低成本的算力。去年,就有媒體爆出,OpenAI 從一家名爲 Rain AI 的初創公司提前訂購價值 5100 萬美元的 " 神經形态 " 類腦人工智能芯片,于 2024 年 10 月開始供貨。
當然,有自己下場造芯的可不止 OpenAI 一家,甚至進度快的微軟、谷歌已經将自研芯片用到大模型上了。
比如,Microsoft Azure Maia 是一款 AI 加速器芯片,可發揮類似英偉達 GPU 的功能,用于 OpenAI 模型等 AI 工作負載運行雲端訓練和推理。而谷歌最新的 AI 芯片 TPUv5e 在訓練、推理參數少于 2000 億的大模型時,成本也低于英偉達的 A100 或 H100。
爲什麽所有大家都在絞盡腦汁搞算力,現在算力又發展到了什麽程度呢?
02 英偉達,AI 芯片的 " 王 "
按照算力基礎設施構成來看,包括 AI 芯片及服務器、交換機及光模塊、IDC 機房及上遊産業鏈等。其中,AI 芯片是其中的 " 大頭 ",能夠占到服務器成本的 55-75%。
從定義上說,能運行 AI 算法的芯片都叫 AI 芯片。按技術架構,可分爲 CPU、GPU、FPGA、ASIC 及類腦芯片。雖然都叫 AI 芯片,但在擅長事情和應用場景上有很大的差異。
就拿我們最熟悉的 CPU 和 GPU 來說,GPU 更像是一大群工廠流水線上的工人,适合做大量的簡單運算,很複雜的搞不了,但是簡單的事情做得非常快,比 CPU 要快得多。而 CPU 更像是技術專家,可以做複雜的運算,比如邏輯運算、響應用戶請求、網絡通信等。
看上去好像 CPU 比 GPU 更牛逼,但你不妨換個角度想,即使教授再神通廣大,也不能一秒鍾内計算出 500 次加減法,因此對簡單重複的計算來說,單單一個教授敵不過數量衆多的小學生。這就是爲什麽 GPU 被大量用戶 AI 大模型訓練的原因。
在一個大模型構建和叠代過程中,需要經過大量的訓練計算工作。通常來說,訓練一次是幾乎不可能訓練成功的,存在着大量的失敗和反複,此外爲保證模型叠代的更快,也需要進行大量的并行訓練。即便打造出第一版大模型,後續模型的持續叠代的成本無法避免。
根據此前披露的消息,GPT-4 的 FLOPS 約爲 2.15e25,并利用約 25000 個 A100 GPU 進行了 90 到 100 天的訓練,如果 OpenAI 的雲計算成本按每 A100 小時約 1 美元計算,那麽在這樣的條件下,訓練一次 GPT-4 的成本約爲 6300 萬美元。
但就是這樣一個支撐 AI 發展最重要的硬件領域,卻被一家公司牢牢掌握着話語權,那就是英偉達。
用兩組數據可以側面證明英偉達在 GPU 領域的統治力:根據 Liftr Insights 數據,2022 年數據中心 AI 加速市場中,英偉達份額達 82%。根據不久前的數據,2023 年人工智能研究論文中使用的英偉達芯片比所有替代芯片的總和多 19 倍。
毫無疑問,英偉達是去年以來 AI 浪潮的最大赢家。2022 年 10 月到現在,英偉達的股價從 110 美元左右上漲到近 600 美元,漲了 500%。FactSet 數據顯示,此前 20 個季度,英偉達有 19 個季度的業績都優于市場預期。
2022 年底,英偉達發布了最新的 GPU 産品—— H100。相比 A100,它的效率高達 3 倍,但成本隻有(1.5-2 倍)。更重要的問題是,受限于産能緊張,H100 仍然供不應求。根據外媒報道,英偉達将在 2024 年,把 H100 的産量從去年的 50 萬張左右直接提高到 150-200 萬張。
英偉達的成功也說明了一件事情:在大模型軍備競賽裏,最後挖礦的誰能赢不知道,但買鏟子的一定賺錢,且短期内有高議價權。
03 摩爾定律,跟不上大模型進化速度
既然 AI 芯片這麽重要,那爲什麽還會如此短缺?歸根到底,AI 芯片的性能提升仍然受限于摩爾定律,遠遠趕不上大模型參數的規模增長。
一些重點研究實驗室報告稱,公衆對大語言模型的使用率達到了驚人高度。
2021 年 3 月,OpenAI 宣布其 GPT-3 語言模型被 " 超過 300 個應用程序使用,平均每天能夠生成 45 億個詞 ",也就是說僅單個模型每分鍾就能生成 310 萬詞的新内容。
在這種情況下,AI 模型對算力需求的增長是驚人的。據 OpenAI 測算,自 2012 年以來,人工智能模型訓練算力需求每 3~4 個月就翻一番,每年訓練 AI 模型所需算力增長幅度高達 10 倍。
相比之下,GPU 更叠效率仍然延續着摩爾定律。根據摩爾定律,芯片計算性能大約每 18-24 個月翻一番。從目前看,盡管 H100 相比 A100 性能有明顯提升,但并沒有像模型訓練算力需求那樣有明顯數量級的增長。
在這種情況下,想要追求算力的增長,隻能做更大規模的分布式訓練。簡單來說,就是用更多數量的機器,來滿足訓練所需的算力。這個方法的瓶頸在于,受網絡傳輸的限制。目前,網絡傳輸最大是 800G,這意味着分布式訓練的規模也不會無限制增長。
從種種迹象來看,巨型模型時代正在接近尾聲。抛開缺少更多高質量訓練數據的原因,算力硬件叠代速度和日益高漲的訓練成本也是一個重要原因。根據拾象 CEO 李廣密判斷,未來幾年 OpenAI 僅訓練模型⾄少還得 200-300 億美元,Google200-300 億美元,Anthropic100-200 億美元,算下來未來幾年至少投入 1000 億美元純粹用到訓練⼤模型。
在硬件提升有限的情況下,提高效率将成爲很多大模型企業的選擇。據谷歌 PaLM 的 論文,在訓練階段,缺乏優化經驗或堆疊過多芯片,效率可能低至 20%,目前谷歌與 OpenAI 都能達到 50% 左右。前述機構推測目前推理階段的效率隻有 25% 左右,提升空間巨大。
在很多人看來,大模型更像一場千億美金級豪賭實驗,有機會将人類帶入新的摩爾時代。在這個過程中,除了智能水平的提升,大模型訓練、推理的成本下降會不會出現類似于摩爾定律的趨勢,也是一個重要的觀察維度。
從過去看,一個新技術能不能真正走向大規模落地,往往不取決于技術有多強,而是成本有多低。參考移動互聯網應用大規模爆發,起于從 3G 到 4G 的所帶來的流量成本大幅下降。從目前看,這樣的故事大概率也将在人工智能領域發生。