韓國人又要赢了嗎?
過去一年,全世界的科技公司都在搶購 AI 芯片,至今供不應求。
英偉達的産能上不來,很大程度上是因爲 HBM(高帶寬内存)不夠用了。每一塊 H100 芯片,都會用到 6 顆 HBM。當下,SK 海力士、三星供應了 90% 的 HBM,并且技術領先美光整整一個代際。
這給了韓國人一個史無前例的機會。
三星京畿道内存工廠
衆所周知,内存市場一直保持着三足鼎立的格局。其中,韓國人一家獨大:三星與 SK 海力士兩家公司,就占去七成市場。但排名第三的美光,仍保有 20% 以上的市占。雙方打得你來我往,各有勝負。
這樣的局面,韓國人大抵是不滿意的。上世紀 80 年代,日本曾攻下了 9 成以上的存儲器市場;這種壓倒性壟斷,才是韓國半導體的終極夢想。
因此在 2024 年初,韓國政府将 HBM 定爲國家戰略技術,并爲 HBM 供應商提供稅收優惠,準備再一次發起沖鋒。
如今,距離韓國人的夢想照進現實,似乎隻有一步之遙了。
馮 · 諾依曼的 " 陷阱 "
韓國人之所以能等來又一次機會,很大程度上得感謝 " 計算機之父 " 馮 · 諾依曼。
1945 年,全球第一台計算機 ENIAC 問世在即,馮 · 諾依曼聯合同事發表論文,闡述了一種全新的計算機體系架構。其中最大的突破在于 " 存算分離 " ——這是邏輯運算單元第一次從存儲單元中被剝離出來。
如果把計算機内部想象成後廚,那麽存儲器就是倉庫管理員,而邏輯芯片就是主廚。
最初," 炒菜 " 和 " 管倉庫 " 的工作,其實都是由同一塊芯片來完成的;随着 " 存算分離 " 的概念被提出之後,計算機才開始設立多個 " 崗位 ",并分别 " 招募人才 "。
拆分出來的邏輯芯片,最終演變成了如今的 CPU 與 GPU。
這麽做的好處顯而易見:存儲和邏輯芯片各司其職,如流水線一般絲滑,高效且靈活,很快獲得了初代計算機設計者的青睐,并一路延續至今,經久不衰。
這就是如今大名鼎鼎的馮 · 諾依曼架構。
然而," 計算機之父 " 馮 · 諾依曼在設計這套架構時,無意間埋下了一顆 " 炸彈 "。
馮 · 諾依曼架構如果想要效率最大化,實際有一個隐含的前提:
即存儲器到邏輯芯片的數據傳輸速度,必須大于或等于,邏輯芯片的運算速度。翻譯成人話就是,倉庫管理員将食材送到後廚的速度,必須比主廚烹饪的速度快。
然而,現實中的科技樹,卻走上了一條截然相反的道路。
存儲器明顯跟不上邏輯芯片的叠代速度。以 CPU 爲例,早在上世紀 80 年代,這種性能失衡已無法忽視。到 21 世紀前,CPU 和存儲器之間的性能差距已經在以每年 50% 的速率持續增長。
這就導緻,決定一塊芯片算力上限的,不是邏輯芯片的算力,而是内存的傳輸速度。廚師已經嚴重溢出,倉管能送多少食材,決定了後廚能出多少菜。
這就是現在常說的 " 内存牆 ",即馮 · 諾依曼所留下的陷阱。
上個世紀,有人曾試着嘗試改變現狀,一批全新的芯片架構展露了頭角。然而,蚍蜉難以撼樹,相較于圍繞馮 · 諾依曼架構建立的生态帝國——包括編程語言、開發工具、操作系統等帶來的好處,那一點性能提升,不值一提。
直到人工智能浪潮洶湧而至。
新的火種
以深度學習爲基石的人工智能,對算力有着近乎病态的需求。
OpenAI 就曾做過一筆測算:從 2012 年的 AlexNet 模型到 2017 年谷歌的 AlphaGoZero,算力消耗足足翻了 30 萬倍。随着 Transformer 問世," 大力出奇迹 " 已然成爲人工智能行業的底層邏輯,幾乎所有科技公司都困于算力不足。
作爲阻撓算力進步的 " 罪魁禍首 ",馮 · 諾依曼架構很快被推上了風口浪尖。
AMD 是最先意識到問題嚴重性的科技巨頭之一。對此,它采用了一種非常 " 簡單粗暴 " 的解決方案——把存儲器放到離邏輯芯片更近的地方。我把 " 倉庫 " 建得離 " 後廚 " 近一點,送貨速度不就提上來了麽?
2015 年,AMD 推出了首款非馮 · 諾依曼架構的産品
但在當年,AMD 這套方案存在一個緻命缺陷。
過去,存儲通常都通過插槽 " 外挂 " 在 GPU 封裝之外,相當于把倉庫建在郊區。
然而,AMD 爲了縮短兩者的距離,打算将存儲器移到和 GPU 同一封裝内的同一塊載闆上。但載闆面積十分有限,如同寸土寸金的中心城區。傳統的内存往往面積又很大,仿佛一個特大型倉庫,中心城區顯然建不下。
至此,HBM 開始登上曆史舞台:它使用了縱向堆疊小型 DRAM 裸片的方式。
我們可以把 HBM 想象成一座高達 12 層的超小型倉庫。由于倉庫面積小,占地需求大大降低,可以順理成章地搬進中心城區;與此同時,從 1 樓到 12 樓,每一層都能存儲數據,所以實際性能并沒有縮水。
當下,HBM 的表面積,隻有傳統内存的 6%。這項新技術,讓 AMD 的技術方案得以成功落地。
于是,AMD 向太平洋對岸的 SK 海力士伸出了橄榄枝。
2015 年,AMD 推出 GPU Fiji,在一塊芯片載闆上排布了 4 顆 HBM,給了業内一個小小震撼。而搭載 Fiji 的高端顯卡 Radeon R9 Fury X,當年在紙面算力上,也第一次超過了英偉達同代的 Kepler 系列。
雖然從後續市場表現來看,Fiji 是一個失敗的作品,但沒有妨礙 HBM 的驚鴻一瞥,攪亂一池春水。
少數人的遊戲
當全球科技公司都開始押注人工智能,撞開了 " 内存牆 " 的 HBM,也順勢走上時代舞台的中心。
然而,隻有少數人,能從 HBM 浪潮中分走蛋糕。當下,HBM 即将跨入第四代,牌桌卻始終湊不齊四個人。截至 2023 年,有能力生産 HBM 的廠商仍然隻有三家:SK 海力士、三星、美光。遺憾的是,這個局面大概率還将保持很久。
三巨頭雖然也壟斷了傳統内存,但在市場景氣時,二、三線廠商也能跟着喝上肉湯。可在 HBM 領域,其餘廠商别說喝湯,連桌都上不了。
過高的技術門檻,是造成這種局面的重要原因。
前文曾提到,HBM 是一座高樓層的小型倉庫;如何實現高樓層的設計,這背後可大有學問。
目前業内采用的技術叫 TSV(矽通孔),是當前唯一的垂直電互聯技術。通過蝕刻和電鍍,TSV 貫穿堆疊的 DRAM 裸片,實現各層的通信互聯,可以想象成給大樓安裝電梯。
由于 HBM 的面積實在太小了,導緻對 TSV 工藝的精度有着極其嚴苛的要求。其操作難度,不亞于用電鑽給米粒鑽孔。而且,HBM 還不止需要 " 鑽一個孔 ":随着大樓越造越高,HBM 對 TSV 的需求量也會相應增加。
三巨頭在 TSV 技術上的積累最爲深厚,足以輕易甩開雲雲小廠,穩坐山頭。
原因之二,是 HBM 打破了傳統内存 IDM 的模式,需要依靠外援,自己說了不算。
IDM 模式是指,從設計、制造到封裝全部由内存廠商一手包辦。過去,三星等内存廠商之所以敢發動價格戰,正是因爲掌握了整個制造流程,可以最大程度擠壓利潤空間。
但到了 HBM,設計、制造還是自己做,可封裝這一環節,就必須依賴晶圓代工廠。
HBM 畢竟不是一塊獨立的内存,需要安裝到邏輯芯片旁邊。這個過程涉及到更精細的操作、更精密的設備,以及更昂貴的材料,隻能求助于先進封裝技術。當下,隻有台積電的先進封裝技術達标,三巨頭都是它的客戶。
台積電的先進封裝技術 CoWoS
隻是台積電的産能相當有限,僧多粥少,三巨頭都不夠用;新玩家想入局,還得看台積電樂不樂意帶上你。
極高的技術門檻,以及對台積電先進封裝産能的依賴,HBM 大概率隻能是少數人的遊戲。也正是因爲這些特點,讓 HBM 戰争的打法,注定與過去的内存戰争迥然不同。
重塑遊戲規則
衆所周知,傳統内存的競争往往圍繞價格戰展開。因爲傳統内存是個高度标準化的産品,各家之間性能差距并不大。往往誰的價格更低,誰就能拿到更多訂單。
但對 HBM 來說,技術叠代更快的一方才握有主動權。
因爲 HBM 主要用于 AI 芯片,其主要賣點就是性能。一塊強大的 AI 芯片,能大幅縮短訓練模型的時間。對科技公司而言,隻要能盡早将大模型推向市場,多花些 " 刀樂兒 " 又何妨?
因此在過去幾年,内存廠商一直在圍繞技術内卷。
2016 年,三星能在 HBM 市場反超 SK 海力士,正是因爲率先量産了新一代的 HBM 2,在技術上跑在了前頭。
英偉達的 V100 芯片,使用了三星的 HBM 2
另一方面,抱上一個夠粗的大腿,同樣也很重要。
因爲有能力生産 AI 芯片的科技公司,全世界數來數去就那麽幾家,對大客戶的依賴度很高。過去幾年,SK 海力士、三星、美光圍繞 HBM 的比拼,實際比的就是誰抱的大腿更粗。
SK 海力士下場最早,一出道就綁定了頗有野心的 AMD。可惜 AMD 的芯片銷量不佳,連累 SK 海力士的 HBM 一度叫好不叫座。
相比之下,三星就相當 " 雞賊 ",憑借着率先量産的 HBM2,成功抱上了英偉達的大腿,反超了 SK 海力士。
然而在 2021 年,SK 海力士率先量産了 HBM 3,成功将英偉達拉攏到自己的陣營中。如今全球瘋搶的 AI 芯片 H100,用的就是 SK 海力士的 HBM。新大腿加持下,SK 海力士徹底奠定了 "HBM 一哥 " 的地位。
SK 海力士供應了 H100 的 HBM
與韓國人相比,美光運氣最差,攤上了英特爾。
2016 年,美光和英特爾押注了另一條技術路線。蒙頭研發了數年,美光才意識到選錯了路線。此時,美光已經落後韓國對手整整兩個代際。
目前,SK 海力士包攬了 HBM 整體供應的 50%,隔壁的三星拿下了 40%,美光僅有 10%。
受到 HBM 業務的拉動,去年三季度 SK 海力士在内存市場的份額暴漲至 34.3%,距離超越三星僅有一步之遙。要知道,三星已經在内存市場 Top 1 的位置坐了 30 多年了。
然而,拼叠代速度、拼大腿,新的打法,意味着更大的變數。三大廠商,目前看似分出了一二三名,實則各有底牌,正緩緩露出冰山一角。
三巨頭的底牌
作爲 HBM 的發明人、如今的第一名,SK 海力士最大的底牌,顯然是遙遙領先的技術力。
爲了徹底殺死比賽,SK 海力士準備直接颠覆 HBM 的設計思路。它計劃于 2026 年量産 HBM 4,準備把 HBM 直接安在 GPU 頂部,走向真正的 3D 架構。也就是說,SK 海力士準備直接将倉庫建在後廚樓上。
乍一看,HBM 4 的設計思路似乎并不驚豔。
畢竟 HBM 的設計初衷,就是爲了縮短倉庫與後廚的距離;那麽幹脆把倉庫搬到後廚樓上,似乎是個很自然的選擇。然而,現實情況卻沒那麽簡單。
此前,各大内存廠商之所以沒采用這一設計,是因爲遲遲解決不了散熱:
把 HBM 裝到 GPU 頂部之後,數據傳輸的速度确實是更快了,但芯片功耗也會大幅上升,産生更多的熱能。如果不能及時散熱,将大大降低芯片工作效率,造成性能損耗,頗有種拆東牆補西牆的意味。
因此,如果想實現 HBM 4 的設計,必須得找到更好的散熱方案。
目前來看,SK 海力士或許找到了突破口;一旦成功落地,無疑是對友商的降維打擊。
SK 海力士位于京畿道的工廠
當然,SK 海力士的模式也有缺陷——過于依賴台積電了。
前文曾提到,HBM 技術高度綁定台積電的先進封裝。但在當下,台積電的産能遠遠跟不上市場的需求,這就給三星留出了二度彎道超車的空間。
三星不僅是存儲器市場的最大卷王,同時也是全球第二大晶圓代工廠。台積電有的,三星基本都有,包括先進封裝,隻是水平稍微差了些。
早在 2018 年,三星就推出了對标台積電的 I-Cube 技術,2021 年時已經發展到第四代。
目前來看,三星的 I-Cube 技術顯然是不及台積電的 CoWoS,畢竟連三星自己都不用。但在台積電産能明顯供不應求的當下,I-Cube 技術就成了三星拉攏生意的武器。
SK 海力士的老搭檔 AMD,就沒能抵抗住 " 産能的誘惑 ",更改了陣營。英偉達據說也有意試水,畢竟台積電的先進封裝增産有限,啓用三星有助于分散供應風險。
三星的存儲工廠
韓國人各有各的張良計,美國人有什麽過橋梯?
說實話,到目前爲止,美光在 HBM 的戰場上,一直處于被動挨打、從未翻身的局面。經過近幾年的追趕,美光總算望見了先頭部隊的背影,但也僅僅隻能跟在韓國人身後 " 撿漏 "。
距離韓國人 " 一統内存江山 " 的終極理想,似乎隻差最後一步了。
不過,這顯然是美國人所不樂于見到的。目前,HBM 的大客戶們,大多來自美國。美光雖然落後,卻未必會完全出局。最新爆料顯示,英偉達剛向美光預訂了一批 HBM 3。
此前,韓國人之所以能在内存市場 " 百戰百勝 ",是因爲競争的規則極其明确:即拼産能、成本。内卷向來是韓國人的 " 舒适區 ",畢竟他們血管裏流的都是美式咖啡。
然而,HBM 是一個不那麽 " 東亞 " 的産業。它面臨着極其嚴苛的技術競争,以及随時搖擺的大客戶。更多的變數,讓韓國人始終無法穩穩占據鐵王座。更何況,另一股東方的神秘力量,也在虎視眈眈。
長夜漫漫,韓國人仍然無法安睡。