随着生成式人工智能(AI)的持續火爆,市場對于高性能 AI 芯片的需求,也帶動了此類 AI 芯片内部所集成的高帶寬内存(HBM)的需求爆發。
根據市場研究機構 Gartner 的預測,2023 年全球 HBM 營收規模約爲 20.05 億美元,預計到 2025 年将翻倍成長至 49.76 億美元,增長率高達 148.2%。
作爲 HBM 市場的領導廠商,SK 海力士最新公布的 2023 年财報也顯示,受益于 AI 市場的需求,其 HBM3 的營收較 2022 年增長了 5 倍以上。
去年年底,韓國媒體還曾爆料稱,已分别向 SK 海力士和美光預付了 7000 億至 1 萬億韓元的預付款,用于訂購大量 HBM3e 内存,爲其 AI 領域的下一代産品做準備。
不久前美光 CEO Mehrotra 也曾指出,其專爲 AI、超級計算機設計的 HBM3E 預計 2024 年初量産,有望于 2024 會計年度創造數億美元的營收。Mehrotra 還對分析師表示,"2024 年 1~12 月,美光 HBM 預估全數售罄 "。
目前 HBM 市場的供應商隻有 SK 海力士、三星、美光三家,且産能都比較有限。數據顯示,在 2022 年 HBM 市場中,SK 海力士占據 50% 的市場份額,三星占比 40%,美光占比 10%。
而 HBM 産能供應上的瓶頸,也與 CoWos 封裝産能瓶頸有關,這也同樣是英偉達(NVIDIA)等的 AI 芯片的供應瓶頸。
一、HBM 難在哪?
HBM 全稱爲 High Bandwidth Memory,即高帶寬内存,與常規的 DDR DRAM 不同,HBM 是将很多個 DDR DRAM 芯片堆疊在一起,然後與 GPU/GPU 封裝在一起,實現大容量、高帶寬、低延遲的 DDR DRAM 組合陣列。
如下圖,HBM 是将多個 DRAM 堆疊在一起,Die 之間通過 TVS 矽通孔和 Microbump 連接。DRAM 下面是則是 DRAM 邏輯控制單元, 對 DRAM 進行控制。CPU/GPU 和 DRAM 堆棧通過 uBump 和 Interposer(起互聯功能的矽片)連通。Interposer 再通過 Bump 和 Substrate ( 封裝基闆)連通到 BALL。最後 BGA BALL 連接到 PCB 上。
正如前面所說,HBM 的可以帶來大容量、高帶寬、低時延、占用面積小等優點,但是同樣也面臨着技術難度高、良率、高成本、散熱等方面的問題。
比如,HBM 依賴昂貴的矽中介層和 TSV 工藝來制造,并且 HBM 的 2.5D 結構會産生熱量,而靠近 CPU 和 GPU 的布局又會加劇這種情況。另外,HBM 走線長度短、焊盤數高,在 PCB 甚至封裝基闆上無法實現密集且短的連接,因此還需要 CoWoS 等 2.5D 先進封裝技術來實現。CoWoS 能以合理的成本提供更高的互連密度和更大的封裝尺寸,目前大部分 HBM 均使用的此項技術。
因此,無論是對于 HBM 來說,還是對于高性能的 AI GPU 來說,他們的産能都将受制于 CoWoS 産能。那麽 2024 年,HBM 的代工産能情況如何?國内是否有國産化 HBM 及其封裝工藝的替代?
近日,知乎答主 @Morris.Zhang 發文對此進行了分析:
二、HBM 芯片的代工産能測算
@Morris.Zhang 認爲,2024 年 SK 海力士、美光、三星這三家的 HBM 産能會擴産到 75 萬片 / 年,以 12 層的 HBM3e 當前良率 90% 計算,約可切出 750 顆 /wafer,即 2024 年全球總計能夠産出超過 5600 萬顆的 HBM 産能(12 層 8 層),上半年産能比例略小;12 層 HBM 顆粒的渠道單價測算是 $250 / 顆,那麽此前傳聞的英偉達斥資約 13 億美元預定的 HBM 訂單,僅能預定 520 萬顆,僅占 2024 年總産能的小部分。
補充說明:12 層 HBM 顆粒的渠道單價測算 $250 / 顆,價格相比一年前略有上浮;換一個測算角度:目前在 AI-HPC 計算芯片上,通常 6 顆容量 16GB 的 HBM3 顆粒的合計成本約 $1500 ,相當于 $15.6/GB;換算到 H100 SXM5,6 顆 HBM3 80GB,相當于 $18.75/GB,約占芯片物料成本的 50% 。
倘若基于 2024 年 CoWoS 産能來算:
英偉達預定了至少約 14 萬片 wafer(包含台積電 12 萬片以及作爲第二供應商的 Amkor 2-3 萬片産能,後者良率較低),設想平均 38% 良率切出 450 萬顆 GPU,那麽每 GPU 搭配 6 片顆粒,即需要至少 2700 萬顆 HBM,意味着英偉達僅采購 HBM 都需要花費 68 億美元。
倘若按照 2024 年全球的 GPU HBM 組合的産能來算:
截至 Y24-Q4,各家 CoWoS GPU 産品的預定産能大約 900 萬顆,結合明年三家 HBM 原廠的擴産計劃總計近 6000 萬顆 HBM(12 層爲主,8 層略少);這兩份供應數據就是吻合的。同時也說明 2024 年的 CoWoS 和 HBM 産能都是充足的。不過雖然産能不缺,但是上述數據畢竟是 " 年度計 ",很多産能直到 Y24-Q4 才會開出,而各家預定的産能當然是越早越好,時效性是關鍵條件,上半年初的機會窗口更重要,倘若下半年才開始投産,黃花菜就涼了。
注釋 1:上述談到的 CoWoS 全球封裝産能是估算約 30 萬片 wafer,包括台積電 27 萬片 安靠 4 萬片(估算晶圓數據約有 1 萬誤差,且後者作爲 second source 的 Amkor 良率很低);以及,這些晶圓流片的工藝節點都集中在 5nm 和 3nm,因此 yield% 保守平均估計在最高 38%,約切出 900 萬顆 GPU die;每顆 GPU 搭載 6 片 HBM 顆粒是假定最小配置,如 AMD MI300 GPU 是搭配 8 片 HBM 顆粒。則 2024 年全球的 HBM 顆粒總需求估算爲 5500 萬顆(12 層爲主)。
諸如英偉達 RTX 系列使用 GDDR6 顆粒的消費卡,不會算入 CoWoS 産能;上述的英偉達 14 萬片 wafer 是特指 Hopper 和 B100(5nm/3nm),估算 2024 年英偉達 HBM 顆粒訂單需求是 2700 萬顆。
注釋 2:雖說三星也計劃導入全棧 CoWoS,但了解到 2024 年可能開不出産能,2025 年可能對三星更有利,作爲同時供應 HBM 和 CoWoS 的 IDM,工藝特點和價格優勢是顯見的。其次,諸如 UMC 和 GlobalFoundries 等産線也可以做前道 65nm interposer(但是這兩家的工藝節點微縮到 14nm 就停止了,沒有先進制程),因此即不能代工前道的先進工藝 logic 和 interposer,也不能完成一條龍的 CoWoS 全棧。另外,倘若 Y25 INTC IFS 獨立運營,其封裝方案也值得觀望。
三、HBM 及其封裝工藝的國産替代
HBM 存儲顆粒的國産化
H100 芯片的物料成本保守測算在 $3300 ,其中 50%-60% 都是 HBM3(6 顆粒),80GB 容量花費的單位成本相當于 $18.75/GB;除了 Logic Area 之外的其它物料(晶圓、封裝前後、基闆等物料)都是标準定價。
當前我們看到 HBM 全球庫存和渠道周轉十分緊張,實際原因是供應商僅有 SK Hynix 一家,恰逢 AI 大語言模型趨勢帶來的 HBM 需求高峰。2024-2025 年,三星、美光的 HBM 産能都會陸續開出,各廠提前預訂産能,渠道也會随之松弛下來,屆時甚至現貨市場的 HBM 顆粒都可以直接采購,演變成 DRAM 現貨渠道的業态。
但是談到國産化,韓美三家内存廠的 HBM 是否可以供應給國内?該問題要從 " 三個方式 " 來看:一則三家内存廠不會直接走 ToB 集成合同供貨給國内客戶,特别是某些受限的企業;二則國内廠商可以直接從現貨渠道采購 HBM 顆粒,進而再适配控制器、适配 I/O 和邏輯封裝;三則國内廠商可以直接從現貨渠道采購 DRAM 顆粒,進而再通過封裝工藝堆疊成 HBM,再适配控制器、适配 I/O 和邏輯封裝。
針對 " 第二、第三種方式 " 做進一步解讀:
第二種方式:單就 HBM 顆粒而言,目前 Hynix HBM 的産能緊張是出于供需失衡,而非出于政策限制。因爲,存儲顆粒是一種标準品 SKU,無需針對顆粒本身做客戶化定制,于是這個品類就産生了所謂現貨市場。标準現貨是可以通過渠道或分銷平台正常流通的,即倘若 2024 年三家内存廠的産能開出,則全球各區域的代理商庫存都會充足,無數的次級渠道 / 次級代理商都可以無限轉售;因此,隻要現貨庫存充足、價格趨勢向好,現貨市場便永遠可以拿貨,這是内存顆粒的産業特性。
因此,倘若某些受限的國内廠商需要 HBM,而不能獲得 SK 海力士的合同供貨和集成定制,則可以從現貨市場采購,其它國内廠商也可以效仿,即直接從現貨渠道采購 HBM 顆粒,進而再适配控制器、适配 I/O 和邏輯封裝。推測昇騰搭載的 HBM 就是現貨渠道采購的 HBM 或 2D-DRAM 顆粒,重新堆疊封裝後的産物(采購 2D-DRAM 再堆疊封裝的方式屬于 " 第三種方式 ")。
第三種方式:相比第三種方式更多一道工序,即堆疊封裝,需要攻克幾個技術課題。國内有 1-2 家專業廠商可以從事這種工作:通過從現貨市場采購 2D-DRAM 顆粒,再通過 TSV 垂直方向通孔、Hybrid Bonding 鍵合的封裝工藝實現堆疊出一個 HBM 器件。
需要指出的是,2023 年下半年,佰維存儲在東莞松山湖高新區落地了一套封裝産線 " 晶圓級先進封測制造項目 ",該廠區項目的另一個實施主體是 " 芯成漢奇半導體 "(佰維持股 70%),項目主題是通過 TSV 和混合鍵合工藝實現針對 DRAM 顆粒的多層堆疊封裝,甚至是異質集成。
假以時日,該廠應該可以穩定供應國内部分廠商的 HBM 需求,甚至搭建起國内封裝的 HBM 現貨渠道和合同定制服務,推測初代産品可能會在較高的線寬節點堆疊(同時受限于 interposer 和 CoWoS),顆粒密度小一些,頻率 / 位寬 / 帶寬規格小一些,但未來可期。
還有第四種方式:自主研發 HBM 顆粒和器件。
國内希望拿到三家 HBM 内存原廠的 HBM 合同供貨和集成定制,但是受到 BIS 禁令限制;那麽除了上述兩種方式獲得 HBM 内存,還可以寄希望于自研産品。
國内廠商 SwaySure、長鑫都在自主研發 HBM,前者進度更快。二者都有來自台灣的研發高管,DRAM 顆粒沒問題,但目前沒有産品化的 SKU,HBM 則可能要期待 2025 年或更長時間。
内存 / 顯存作爲核心計算設備,它的自研不是由存儲廠商獨立完成,需要 " 現代計算 Hierarchy 的各層廠商 " 全部參與其中,成熟的通用主存 / 顯存器件需要适配主闆 PCB 和主芯片,還有控制器、協議、底層 PHY 的搭配設計都很重要,因此 HBM 基本是與主芯片廠商同步做研發和集成的。
另外,從封裝工藝角度,産業化 HBM 的另一個阻礙在于封裝,受限于 interposer 和 CoWoS。
CoW WoS 封裝的國産化
參考 GPU 芯片構型,倘若缺少 CoWoS 封裝結構,HBM 都無處擺放。
目前全球可選的 CoWoS 産能供應商有幾個類别:
其一是台積電的 CoWoS;
其二是由台積電完成晶圓和前道 interposer 的制造(即 CoWoS 的 "CoW" 部分,堆疊 互連),随後交由自家封裝廠(例如空閑的 InFO 産能)或是合作第三方 OSAT 封裝廠完成 "on Substrate" 部分,即封裝在基闆上;
其三是,可委托由 UMC/GF 生産 interposer,随後再送交 Amkor 或日月光等 OSAT 産線,委托完成 "WoS" 部分;
其四是三星 I-Cube/H-Cube 和 Intel Foveros,兩家都可以完成全棧 CoWoS 交付;
其五是國内也有一部分 CoWoS 的能力,但幾乎全部是 CoW WoS 的工藝對接。
諸如 UMC 和 GlobalFoundries 等産線可以完成 CoW 部分的制造,即前道 interposer,工藝節點基本在 65nm(這兩家的工藝節點微縮到 14nm 就停止了,沒有先進制程);因此這類廠商即不能代工前道的先進工藝 logic 和 interposer,也不能完成一條龍的 CoWoS 全棧。
能夠獨立完成較高工藝節點、較高良率的全棧 CoWoS 的廠商,唯有 TSMC/Samsung/INTC。
對于國産化的 CoWoS 封裝廠商,盛合晶微和通富微電都有從事 Chiplet 封裝,兼顧包括前道 interposer 的生産。
通富微電也在國内和海外分别設有廠區;此前傳聞稱 AMD MI300 CoWoS 的封裝代工會委托給通富微電,但随後證實是誤傳,實際情況是:AMD 曾計劃将封裝的 bumping 工序委托給通富微電(槟城工廠),但最終沒有合作;通富微電主要是服務于國内。盛合晶微和通富微目前還存在一些良率缺陷,拉動良率是一個緩慢的過程。
其實相比其它制造工序而言,CoWoS 并沒有極度前沿的技術門檻,唯一的關節是它要保證在高微縮制程下的高良率,因爲在封裝層面,倘若出品有較高的不良 / 失效,那麽上面堆疊連接的 HBM 等等器件就變成無可挽回的損耗了;通過兼顧較高工藝節點和良率的,目前唯有台積電。單就 CoW Wos 産能而言,全球可以開出很多産能(尤其 WoS 廠商),但是能夠适用于先進計算芯片的工藝 / 良率的産能則并不多。
出于微縮 IC 面積,CoWoS 的方法就是在 Substrate 上面增加一層 Si interposer,芯片依然通過覆晶方式正面朝下連接在這個中介層上;它就承擔 die-die 互連以及 die-substrate 互連。由于 interposer 是按芯片工藝制造(如初代的 65nm),其布線密度可以非常細密(初代 <10um),die-die 之間也可以堆疊更緊密。
導緻上述良率門檻的原因是工藝:以 WoS 良率爲例,難點主要在于其封裝的中介層尺寸應當有嚴格限制,即 Si interposer 面積需要大于其上面 2 個甚至多個 die 的尺寸之和;然而随着這個尺寸越來越大,CoWoS-5 甚至通過一種 "2-way lithography stitching approach 技術 " 使得 interposer 尺寸可以擴到 2500nm2(接近 3x reticle limit,6 代 CoWoS 尺寸甚至接近 4x reticle limit),那麽随之帶來的工藝風險就是,on wafer 邊緣的扭曲、接角的垂直凸變問題就會發生,導緻封測後不良。而 TSMC CoWoS 工藝磨合了 10 幾年,積累大量 knowhow,才獲得如今可靠的高良率。
對于 OSAT 專業封裝廠(包括 Amkor/ 日月光等),導緻工藝良率拉升緩慢的因素還有就是與前段 interposer 的分開制造,雖然 CoW WoS 是合理的産業鏈分工,但是拉升兩者共同出品的良率需要兩家工藝同步發展。
國内的 interposer 基本是由 SMIC 制造,再将其委托給 OSAT 專業封裝廠完成 WoS 封測;而倘若不能獲得 SMIC interposer 制造,也可以委托 UMC/GF 代工。如今,SMIC interposer 雖然做不到 3nm,但可以使用 7nm 代替;而且 SMIC 的先進封裝工序也是獨立出來,成立子公司運行。能夠獨立完成較高工藝節點、較高良率的一條龍全棧 CoWoS 的廠商,唯有 TSMC/Samsung/Intel(Logic die interposer CoWoS)。
未來的趨勢,可能全球大部分 2.5D 封裝都會是前道 - 後道合作的模式;前道 Fab 提供 interposer 做 CoW,後道有載闆的做 WoS。另外,CoWoS 也會更多下沉适用到其它場景,非移動裝置涉及 AI-HPC 的未來大部分産品都會依賴 CoWoS 封裝,2.5D/3D 封裝目前來看還是 Foundry 相比 OSAT 更具優勢。
編輯:芯智訊 - 浪客劍