AI 算力不夠,已經是老大難問題。ChatGPT 等大語言模型,掀起了新一輪 " 大煉模型 " 和 " 煉大模型 " 的熱潮,又讓本就不足的算力雪上加霜。
适用于 AI 計算的 GPU 供不應求,買不到卡的企業和科研機構嗷嗷待哺,買到了卡的企業不得不面對漲價,也被架在成本的火上烤。
目前,英偉達的 GPU 是 AI 計算最主流的硬件。有業内人士估算過,GPT-4 模型僅滿足日訪問量的計算需求,就需要六萬張英偉達 A100,每一張價格在 60-100 萬人民币,而 A100 和更強大的 H100,這兩款芯片此前都被列入了美國的禁止出口清單裏。還好在英偉達的遊說下,又能夠在 2023 年 3 月 1 日之前繼續給大陸提供 A100 産品。
現在緩沖期已經到了,AI 算力的局面是蠟燭兩頭燒,一邊是越來越少的海外高性能芯片,一邊是越來越多的大模型訓推需求,究竟怎麽辦呢?
我知道很多普通網友很急,覺得又被卡脖子了,但大家确實不用那麽急,爲 AI 算力荒解困,業内其實已經探索出了短策、中策和長策。今天就來講講,如何見招拆招。
短策
開源節流,過緊日子
實事求是來說,最關鍵的 AI 芯片 GPU 被國際廠商壟斷,市場占有率達到 80% 以上。而國産廠商雖然也有相應的産品,但要麽還沒有量産,無法滿足規模應用的需求;要麽性能跟海外先進産品的差異很大,實用中大概隻能達到 60% 左右的水平。而中美博弈,短期内是不會有方向性的轉變的,未來高性能芯片的封禁可能是常态。
所以結論就是,放棄幻想,接下來要準備過 AI 算力的緊日子了。
目前業内的應付辦法有兩種:
一是開源。
對于 N 卡,繼續買,抓緊囤貨。
國内頭部互聯網公司,尤其是已經推出了大模型的企業,都會進行 20% 左右的戰略備貨,儲備了萬片級别的英偉達 A100 芯片,所以算力基礎都不差。某一線雲廠商透露,現在自家有 10 萬片的 A100,能夠滿足好幾個客戶複現 GPT 的 AI 算力需求。
此前國内區塊鏈火爆,礦機廠商和數字貨币販子也買了大量英偉達 GPU 用來 " 挖礦 ",聽說也被一些 AI 公司緊急收了過來。而且,雖然緩沖期已到,但隻要交付模式上商務合規,還是有可能繼續用到先進産品的。
對于國産芯,加快上馬,落地部署。
目前,國内的頭部科技公司,已經開始籌備或落實,将寒武紀 MLU370/590、燧原、百度昆侖芯、阿裏平頭哥等,部署到算力集群中,盡管占比還比較少,但國産芯的使用和适配已經開始了,随着合規及産能提速,也能滿足 AI 并行計算的需求。
芯片的國産化替代,這一步遲早要走,大模型成了那個提前上馬的變量。
二是節流。
既然 AI 基礎設施跟大模型建設熱潮之間有剪刀差,咱能不能把錢花在刀刃上呢?還真能。
OpenAI 選擇訓大語言模型來實現通用人工智能,超大規模參數來達到 " 智能湧現 ",堪稱爲 " 敗家子兒式創新 "。微軟公司的博客中透露,2019 年微軟宣布向 OpenAI 投資 10 億美元,爲了讓 OpenAI 能訓練出越來越強大的模型,将 28.5 萬個 CPU 和 10000 個 GPU 聯接起來,造了一個超級計算集群。
背靠家大業大的微軟,這麽燒無可厚非。但放到中國語境下,或許我們還可以想一想,等這波 GPT 式熱度消退,基礎模型已經成型,那些燒錢打造的算力基礎設施該何去何從?百億、萬億參數的大模型,部署到工廠、礦區、城市之類的行業場景,是不是也有相應的算力支撐?
冷靜下來後,爲 AI 算力 " 節流 ",才是大模型真正落地的必經之路。
節流,有兩個辦法:一是大模型 " 瘦身 ",通過剪枝讓模型稀疏化、知識蒸餾對模型進行壓縮,通過權重共享來減少參數量……總之,一旦一種技術路線被證明有效,那麽很快就會有多種技術手段對其進行優化,讓模型成本大幅下降。
最近加州大學伯克利分校打造的 icuna (小羊駝)模型,就隻用 8 張 A100 訓練了一天時間,将 130 億參數模型的訓練成本,從 1000 美元降低至 300 美元。所以,模型 " 瘦身 " 可以有效減少單個模型的算力資源消耗。
二是硬件 " 壓榨 ",通過端到端優化,從 AI 芯片中 " 壓榨 " 出更多性能,把有限的硬件用到極緻,也是一種節流。
舉個例子,主流的大模型,包括 ChatGPT、GPT-4,都是以 Transformer 架構爲主,微軟通過 ONNX 開源推理引擎的優化,可以将大語言模型的推理性能提高 17 倍。某國産芯片廠商針對 Transformer 結構特性進行優化,将芯片性能提升到原本的五倍以上,壓縮顯存 30% 以上。資源利用率更高,相當于在 AI 訓練和推理時單位部署成本更低了。
總的來說,面對短期内 "AI 算力荒 ",我們隻能接受現實,正視差距,廣積糧食,開源節流。
承認這一點沒有什麽好憋屈的,畢竟中國 AI 從零起步,到今天能跟 no.1 站在同一張牌桌,這才是我們熟悉的故事。
中策
兼容并包的全國算網
一雙眼睛全盯着高性能 GPU,會發現差距簡直無從彌補,還在越拉越大。英偉達、英特爾、AMD 等已經将 AI 芯片支撐推進到了 4nm,而光刻機禁運,制程追不上,國内 14nm 制程将将量産,巧婦難爲無米之炊。
但換個角度,可能就柳暗花明又一村。
大家可能還記得,去年東數西算工程正式啓動,新型國家算力網絡成了新的熱點,我們也做過很多報道和分析。
當時我們就提到:實現先進算力的一體化、集約化、多樣化供給,是 " 全國算力一盤棋 " 的題中之義。而這隻是全國一體化大數據中心協同創新體系中的一環。
今天看來,通過幾年時間,構建數網、數紐、數鏈、數腦、數盾,對于 AI 大模型的數據、算力、聯接、商業化等多種挑戰,是一種持續釋放影響的 " 中策 "。
本質上說,AI 模型的訓練推理是 CPU+ 加速芯片。GPU 的高并行性,可以成規模地處理 AI 工作負載,爲深度學習加速,在進行模型的訓練和推斷時會更具有效率優勢。英偉達的 A100,在 AI 推理時吞吐量是 CPU 的 249 倍。
但這并不意味着,CPU 不能做并行計算,加速芯片沒有其他選擇。
生成式 AI 的模型訓練通常是在雲端完成的,雲端芯片以 CPU+GPU 異構計算爲主。一些小型的模型是完全可以 CPU 訓練的,可能訓練速度慢一點,但确實可以用。
此外,ASIC 芯片也很适合 AI 計算,目前還沒有明顯的頭部廠商,國産廠商還有機會,很多企業開始推出自研的 ASIC 加速芯片。比如谷歌的 TPU、英特爾的 DPU、國内寒武紀的 NPU、地平線的 BPU 等。
模型訓練好之後,需要結合數據計算 " 推理 " 出各種結論。手機人臉識别認出 " 你是你 " 這個環節就是 " 端側推理 ",iPhone 将相冊上傳到雲端進行用戶行爲分析就是 " 雲端推理 "。
相對模型訓練而言,推理階段處理的是小批量數據,這時候 GPU 并行計算的性價比就不那麽明顯了,尤其是在邊緣和終端大規模部署 AI 算法,是難以承受如此高的成本的。FPGA、ASIC 等加速芯片,協助 CPU 來滿足推理的計算需求,是具有競争優勢的。
這跟算網有什麽關系呢?
劃重點,在全國一體化算力網絡體系的各種政策文件中," 算力多元化 " 的出現頻率是非常高的。
多元化,一方面體現在多種計算架構,支持 CPU、GPU、ASIC、FPGA 等多種芯片的混合部署,充分發揮不同體系架構的優勢。
另一方面,體現在多種算力,模型訓練、邊緣推理、數值模拟的不同場景需要不同的算力,AI 算力、通用算力、高性能算力等綜合配給,才能很好地支撐各類行業 AI 應用。
正如微軟 Azure 高性能計算和人工智能産品負責人 Nidhi Chappell 所說," 讓更大的模型訓練更長的時間,意味着你不僅需要擁有最大的基礎設施,還必須能夠長期可靠地運行它 "。
要長期可靠地保障 AI 算力資源,自然要發揮中國智慧——東方不亮西方亮,黑了南方有北方。通過全國一體化算力網絡的建設,充分推動多種架構的落地部署,國産芯片的同步發展。
未來幾年算網成型,對于保障算力供給,應對不可抗力,會起到非常關鍵的作用。
長策
長出那雙手
理想化的角度來說,緩解 AI 算力荒的終極解決思路,肯定是造出對标國際一流水平的自研芯片。但這就像 " 中國什麽時候能有自己的 OpenAI" 一樣,是一個漫長的暢想。
漫長,指的不隻是足夠長的時間和耐心,給半導體行業足夠多的錢,還要能吸納全球頂尖的技術人才、全球優質的風險投資機構、計算機基礎人才的培養、允許失敗試錯的創新氛圍和兜底機制、充分信息化數字化的優質數據基礎、繁榮的商業市場……這是一個社會工程。
那麽,我們是不是就得一直這麽憋屈呢?
當然不是。咱們除了 " 脖子 ",還有 " 手 " 啊,就不能用自己的長處,去卡别人的脖子呢?
這雙手,可能是新的計算體系。
今天,經典計算的 " 摩爾定律 " 已死,英偉達提出的 " 新摩爾定律 " 也面對 AI 算力供需的剪刀差有心無力。
光計算、類腦計算、量子計算等新計算體系,正在成爲各國的重點布局方向。以量子計算爲例,有望徹底解決經典計算的算力不足問題。
當然,總想着 " 彎道超車 " 大概率會翻車,提到這點隻是想提醒一下,不要隻盯着 CPU/GPU 這些已經被卡脖子的焦點領域,而忽視了其他路線,将路走窄了。畢竟誰能想到,當年遊戲宅們追捧的顯卡能卡住今天的 AI 計算市場呢?
英偉達 GPU 被發現可以用來跑 AI 之前,隻有遊戲發燒友會對 N 卡津津樂道,這種 " 無心插柳柳成蔭 " 的結果,恰好說明了多技術路線創新的重要性,或許會在某條路上就發現驚喜。
這雙手,也可能是産業生态。
AI 本來就是一個工程性、交叉性很強的學科,AI 芯片要充分釋放能力,除了更高制程的工藝,也離不開深刻理解行業用戶的使用習慣,才能把軟硬件做到位。
英偉達 GPU 的主流地位,與 CUDA 生态有直接關系。而 CUDA 的護城河正是軟件堆棧,可以讓研究人員和軟件開發者更好地在 GPU 上編程,構建應用。
如果說 AI 算力問題,國産硬件的差距是明線,軟件生态就是那條更難的暗線。
首先是軟件,就拿大模型來說,下接底層算力硬件、操作系統和框架,上接行業應用,需要提供一整套從開發、應用、管理的全流程服務和工程化方法,而目前積累了全面技術棧的隻有少數國内頭部企業。
其次是生态,CUDA 生态經過多年積累,在 AI 計算的絕對主導地位,而國内幾個頭部企業都有各自的 AI 生态。我們就曾遇到過這樣的采訪對象,一個工業企業的數字化案例中,既有 A 生态的一些軟硬件,又有 B 生态的一些解決方案。多個生态并存,增加了産業的選項自由和安全感,也難免帶來适配上的複雜度,以及一些重複性工作。
國産芯片硬件的突破或在旦夕之間,但軟件生态的爆發卻需要漫長的時間去醞釀。而一旦生态如同齒輪一樣轉起來了,吸納更多産業資源和人才力量,很多軟硬件創新都能加速發展。
大語言模型的這波熱鬧中,我有聽到一些聲音,說中國 AI 行業 " 渾身上下都是脖子 "" 一卡脖子就翻白眼,一開源就全球領先 "。
很能理解大家 " 怒其不争 " 的心情,但實事求是地看,中國 AI 走到今天,靠的從來不是誰的施舍,是真的有一群人,在卡脖子時沒有翻白眼,而是與禁令搶時間,與海外合作夥伴想對策,把國産芯片扶上馬送一程。
如果說,無需擔心 "AI 算力荒 ",這是一種無視現實差距的盲目自信。但也确實不用一提算力、一提芯片,就萦繞着 " 生于憂患死于安樂 " 的焦慮氣息。
星光不問趕路人,與其花時間自憐自哀,不如在有限的規則裏,做力所能及的事。短策、中策、長策久久爲功,這才是中國緩解 "AI 算力荒 " 的真實選擇。