8 月 23 日,GPU 巨頭 Nvidia 發布了 2023 年二季度财報,其結果遠超預期。總體來說,Nvidia 二季度的收入達到了 135 億美元,相比去年同期增長了 101%;淨利潤達到了 61 億美元,相比去年同期增長了 843%。Nvidia 公布的這一驚人的财報一度在盤後讓 Nvidia 股票大漲 6%,甚至還帶動了衆多人工智能相關的科技股票在盤後跟漲。
Nvidia 收入在二季度如此大漲,主要靠的就是目前方興未艾的人工智能風潮。ChatGPT 爲代表的大模型技術從去年第三季度以來,正在得到全球幾乎所有互聯網公司的追捧,包括美國矽谷的谷歌、亞馬遜以及中國的百度、騰訊、阿裏巴巴等等巨頭。而這些大模型能進行訓練和推理的背後,都離不開人工智能加速芯片,Nvidia 的 GPU 則是大模型訓練和推理加速目前的首選方案。由于個大科技巨頭以及初創公司都在大規模購買 Nvidia 的 A 系列和 H 系列高端 GPU 用于支持大模型訓練算力,這也造成了 Nvidia 的數據中心 GPU 供不應求,當然這反映到财報中就是收入和淨利潤的驚人增長。
事實上,從 Nvidia 的财報中,除了亮眼的收入和淨利潤數字之外,還有一個關鍵的數字值得我們關注,就是 Nvidia 二季度的數據中心業務收入。根據财報,Nvidia 二季度的數據中心業務收入超過了 100 億美元,相比去年同期增長 171%。Nvidia 數據中心業務數字本身固然非常驚人,但是如果聯系到其他公司的同期相關收入并進行對比,我們可以看到這個數字背後更深遠的意義。同樣在 2023 年第二季度,Intel 的數據中心業務收入是 40 億美元,相比去年同期下降 15%;AMD 的數據中心業務收入是 13 億美元,相比去年同期下降 11%。我們從中可以看到,在數據中心業務的收入數字上,Nvidia 在 2023 年第二季度的收入已經超過了 Intel 和 AMD 在相同市場收入的總和。
這樣的對比的背後,體現出了在人工智能時代,人工智能加速芯片(GPU)和通用處理器芯片(CPU)地位的反轉。目前,在數據中心,人工智能加速芯片 /GPU 事實上最主流的供貨商就是 Nvidia,而通用處理器芯片 /CPU 的兩大供貨商就是 Intel 和 AMD,因此比較 Nvidia 和 Intel+AMD 在數據中心領域的收入數字就相當于比較 GPU 和 CPU 之間的出貨規模。雖然人工智能從 2016 年就開始火熱,但是在數據中心,人工智能相關的芯片和通用芯片 CPU 相比,獲得的市場份額增長并不是一蹴而就的:在 2023 年之前,數據中心 CPU 的份額一直要遠高于 GPU 的份額;甚至在 2023 年第一季度,Nvidia 在數據中心業務上的收入(42 億美元)仍然要低于 Intel 和 AMD 在數據中心業務的收入總和;而在第二季度,這樣的力量對比反轉了,在數據中心 GPU 的收入一舉超過了 CPU 的收入。
這也是一個曆史性的時刻。從上世紀 90 年代 PC 時代開始,CPU 一直是摩爾定律的領軍者,其輝煌從個人電腦時代延續到了雲端數據中心時代,同時也推動了半導體領域的持續發展;而在 2023 年,随着人工智能對于整個高科技行業和人類社會的影響,用于通用計算的 CPU 在半導體芯片領域的地位正在讓位于用于人工智能加速的 GPU(以及其他相關的人工智能加速芯片)。
摩爾定律的故事在 GPU 上仍然在發生
衆所周知,CPU 的騰飛離不開半導體摩爾定律。根據摩爾定律,半導體工藝特征尺寸每 18 個月演進一代,同時晶體管的性能也得大幅提升,這就讓 CPU 在摩爾定律的黃金時代(上世紀 80 年代至本世紀第一個十年)突飛猛進:一方面 CPU 性能每一年半就叠代一次,推動新的應用出現,另一方面新的應用出現又進一步推動對于 CPU 性能的需求,這樣兩者就形成了一個正循環。這樣的正循環一直到 2010 年代,随着摩爾定律逐漸接近物理瓶頸而慢慢消失——我們可以看到,最近 10 年中,CPU 性能增長已經從上世紀 8、90 年代的 15% 年複合增長率(即性能每 18 個月翻倍)到了 2015 年後的 3% 年複合增長率(即性能需要 20 年才翻倍)。
但是,摩爾定律對于半導體晶體管性能增長的驅動雖然已經消失,但是摩爾定律所預言的性能指數級增長并沒有消失,而是從 CPU 轉到了 GPU 上。如果我們看 2005 年之後 GPU 的性能(算力)增長,我們會發現它事實上一直遵循了指數增長規律,大約 2.2 年性能就會翻倍!
同樣是芯片,爲什麽 GPU 能延續指數級增長?這裏,我們可以從需求和技術支撐兩方面來分析:需求意味着市場上是不是有應用對于 GPU 的性能指數級增長有強大的需求?而技術支撐則是,從技術上有沒有可能實現指數級性能增長?
從需求上來說,人工智能确實存在着這樣強烈需求。我們可以看到,從 2012 年(神經網絡人工智能複興怨念開始)到至今,人工智能模型的算力需求确實在指數級增長。2012 年到 2018 年是卷積神經網絡最流行的年份,在這段時間裏我們看到人工智能模型的算力需求增長大約是每兩年 15 倍。在那個時候,GPU 主要負責的是模型訓練,而在推理部分 GPU 的性能一般都是綽綽有餘。而從 2018 年進入以 Transformer 架構爲代表的大模型時代後,人工智能模型對于算力需求的演進速度大幅提升,已經到了每兩年 750 倍的地步。在大模型時代,即使是模型的推理也離不開 GPU,甚至單個 GPU 都未必能滿足推理的需求;而訓練更是需要數百塊 GPU 才能在合理的時間内完成。這樣的性能需求增長速度事實上讓 GPU 大約每兩年性能翻倍的速度都相形見拙,事實上目前 GPU 性能提升速度還是供不應求!因此,如果從需求側去看,GPU 性能指數級增長的曲線預計還會延續很長一段時間,在未來十年内 GPU 很可能會從 CPU 那邊接過摩爾定律的旗幟,把性能指數級增長的神話續寫下去。
GPU 性能指數增長背後的技術支撐
除了需求側之外,爲了能讓 GPU 性能真正維持指數增長,背後必須有相應的芯片技術支撐。我們認爲,在未來幾年内,有三項技術将會是 GPU 性能維持指數級增長背後的關鍵。
第一個技術就是領域專用(domain-specific)芯片設計。同樣是芯片,GPU 性能可以指數級增長而 CPU 卻做不到,其中的一個重要因素就是 GPU 性能增長不僅僅來自于晶體管性能提升和電路設計改進,更來自于使用領域專用設計的思路。例如,在 2016 年之前,GPU 支持的計算主要是 32 位浮點數(fp32),這也是在高性能計算領域的默認數制;但是在人工智能興起之後,研究表明人工智能并不需要 32 位浮點數怎麽高的精度,而事實上 16 位浮點數已經足夠用于訓練,而推理使用 8 位整數甚至 4 位整數都夠了。而由于低精度計算的開銷比較小,因此使用領域專用計算的設計思路,爲這樣的低精度計算做專用優化可以以較小的代價就實現人工智能領域較大的性能提升。從 Nvidia GPU 的設計我們可以看到這樣的思路,我們看到了計算數制方面在過去的 10 年中從 fp32 到 fp16 到 int8 和 int4 的高效支持,可以說是一種低成本快速提高性能的思路。除此之外,還有對于神經網絡的支持(TensorCore),稀疏計算的支持,以及 Transformer 的硬件支持等等,這些都是領域專用設計在 GPU 上的很好體現。在未來,GPU 性能的提升中,可能是有很大一部分來自于這樣的領域專用設計,往往一兩個專用加速模塊的引入就能打破最新人工智能模型的運行瓶頸來大大提升整體性能,從而實現四兩撥千斤的效果。
第二個技術就是高級封裝技術。高級封裝技術對于 GPU 的影響來自兩部分:高速内存和更高的集成度。在大模型時代,随着模型參數量的進一步提升,内存訪問性能對于 GPU 整體性能的影響越來越重要——即使 GPU 芯片本身性能極強,但是内存訪問速度不跟上的話,整體性能還是會被内存訪問帶寬所限制,換句話說就是會遇到 " 内存牆 " 問題。爲了避免内存訪問限制整體性能,高級封裝是必不可少的,目前的高帶寬内存訪問接口(例如已經在數據中心 GPU 上廣泛使用的 HBM 内存接口)就是一種針對高級封裝的标準,而在未來我們預期看到高級封裝在内存接口方面起到越來越重要的作用,從而助推 GPU 性能的進一步提升。高級封裝對于 GPU 性能提升的另一方面來自于更高的集成度。最尖端半導體工藝(例如 3nm 和以下)中,随着芯片規模變大,芯片良率會遇到挑戰,而 GPU 可望是未來芯片規模提升最激進的芯片品類。在這種情況下,使用芯片粒将一塊大芯片分割成多個小芯片粒,并且使用高級封裝技術集成到一起,将會是 GPU 突破芯片規模限制的重要方式之一。目前,AMD 的數據中心 GPU 已經使用上了芯片粒高級封裝技術,而 Nvidia 預計在不久的未來也會引入這項技術來進一步繼續提升 GPU 芯片集成度。
最後,高速數據互聯技術将會進一步确保 GPU 分布式計算性能提升。如前所述,大模型的算力需求提升速度是每兩年 750 倍,遠超 GPU 摩爾定律提升性能的速度。這樣,單一 GPU 性能趕不上模型算力需求,那麽就必須用數量來湊,即把模型分到多塊 GPU 上進行分布式計算。未來幾年我們可望會看到大模型使用越來越激進的分布式計算策略,使用數百塊,上千塊甚至上萬塊 GPU 來完成訓練。在這樣的大規模分布式計算中,高速數據互聯将會成爲關鍵,否則不同計算單元之間的數據交換将會成爲整體計算的瓶頸。這些數據互聯包括近距離的基于電氣互聯的 SerDes 技術:例如在 Nvidia 的 Grace Hopper Superchip 中,使用 NVLINK C2C 做數據互聯,該互聯可以提供高達 900GB/s 的數據互聯帶寬(相當于 x16 PCIe Gen5 的 7 倍)。另一方面,基于光互聯的長距離數據互聯也會成爲另一個核心技術,當分布式計算需要使用成千上萬個計算節點的時候,這樣的長距離數據交換也會變得很常見并且可能會成爲系統性能的決定性因素之一。
我們認爲,在人工智能火熱的年代,GPU 将會進一步延續摩爾定律的故事,讓性能指數級發展繼續下去。爲了滿足人工智能模型對于性能強烈的需求,GPU 将會使用領域專用設計、高級封裝和高速數據互聯等核心技術來維持性能的快速提升,而 GPU 以及它所在的人工智能加速芯片也将會成爲半導體領域技術和市場進步的主要推動力。
* 免責聲明:本文由作者原創。文章内容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。