2011 年 9 月,英特爾開發者論壇(IDF)的最後一天,英特爾首席技術官賈斯汀 · 拉特納(Justin Rattner)在長達一小時的演講中,抽出了大約一分鍾的時間介紹了一項革命性的技術—— HMC(Hybrid Memory Cube,混合内存立方體)。
這項技術由美光和英特爾共同合作開發,雖然被一筆帶過,但它的重要性,其實并不比處理器架構叠代要差多少,因爲這是内存産業又一次的革命,有望徹底解決過往 DDR3 所面臨的帶寬問題。
實際上,早在 IDF 開始前的 8 月,美光研究員兼首席技術專家 Thomas Pawlowski 就在 Hot Chips 上詳細介紹了 HMC,當時雖然沒有透露與英特爾的合作,但他表示,HMC 是一種三維集成電路創新,它超越了三星等公司展示的處理器 - 内存芯片堆疊技術,是一種全新的内存 - 處理器接口架構。
對于美光來說,HMC 就是反殺三星海力士兩大韓廠的最有力武器。
内存革命
在介紹 HMC 的時候,Pawlowski 對當時 DRAM 标準的落後提出了質疑,他認爲,出于繼續增加帶寬并降低功耗和延遲以滿足多核處理的需求,對内存的直接控制必須讓位于某種形式的内存抽象,DRAM 廠商總是需要一個行業标準機構(例如 JEDEC),就用于指定 DRAM 的約 80 個參數達成一緻,從而産生 " 最低公分母 " 解決方案。
他的言外之意就是,美光不打算繼續一起慢吞吞地坐下來協商了,既然内存帶寬吃緊,那就開發一種全新的高帶寬标準,抛開 JEDEC 那堆框框架架的束縛,自己另立一個山頭,而盟主呢,自然就是美光了。
在 Pawlowski 所公布的全新 HMC 标準中,從處理器到存儲器的通信是通過高速 SERDES 數據鏈路進行的,該鏈路會連接到 DRAM 堆棧底部的本地邏輯控制器芯片,IDF 上所展示的原型裏,4 個 DRAM 通過矽通孔(TSV)連接到邏輯芯片,還描述了多達 8 個 DRAM 的堆疊。值得一提的是,原型裏的處理器沒有集成到堆棧中,從而避免了芯片尺寸不匹配和散熱問題。
HMC 本質上其實是一個完整的 DRAM 模塊,可以安裝在多芯片模塊或 2.5D 無源插接器上,從而更加貼近 CPU。除此之外,美光還介紹了一個 " 遠存儲器 " 的配置,在這一配置中,一部分 HMC 連接到主機,而另一部分 HMC 則通過串行鏈接連接到其他 HMC,以此來形成存儲器立方體網絡。
以今天的目光來看,HMC 不可謂不先進,而 Pawloski 也頗感自豪,他表示 HMC 無需使用複雜的内存調度程序,隻需使用一個薄仲裁器即可形成淺隊列。HMC 從架構上就消除了複雜的标準要求,時序約束不再需要标準化,隻有高速 SERDES 接口和外形尺寸才需要标準化,而這部分規範完全可以通過定制邏輯 IC 進行調整以适應應用,大容量 DRAM 芯片在衆多應用中都是相同的。
在許多人擔心的延遲問題上,Pawlowski 也表示,雖然 HMC 的串行鏈路會略微增加系統延遲,但整體的延遲反而是顯著降低的,尤其是它的 DRAM 周期時間(tRC)在設計上較低,較低的隊列延遲和較高的存儲體可用性還進一步縮短了系統延遲。
他同時也展示了第一代 HMC 原型的具體數據,美光同英特爾合作,通過将 1Gb 50nm DRAM 陣列與 90nm 原型邏輯芯片相結合,構建了第一代 27mm x 27mm HMC 原型,其在每個立方體上使用 4 個 40GBps(每秒十億字節)鏈路,每個立方體的總吞吐量爲 160 GBps,DRAM 立方體的總容量爲 512MB,由此産生的性能比下一代 DDR4 顯着提高了約 3 倍的能效(以 pj/bit 爲單位)。
HMC 解決了傳統 DRAM 的帶寬問題,一時之間成爲了大家的新寵兒,但實質上是集不斷發展的矽通孔(TSV)技術于大成,并不能全然歸功于美光和英特爾。
什麽是 TSV 呢?TSV 全稱爲 Through Silicon Via,是一種新型三維堆疊封裝技術,主要是将多顆芯片(或者晶圓)垂直堆疊在一起,然後在内部打孔、導通并填充金屬,實現多層芯片之間的電連接。相比于傳統的引線連接多芯片封裝方式,TSV 能夠大大減少半導體設計中的引線使用量,降低工藝複雜度,從而提升速度、降低功耗、縮小體積。
早在 1999 年,日本超尖端電子技術開發機構(ASET)就開始資助采用 TSV 技術開發的 3D IC 芯片項目 " 高密度電子系統集成技術研發 ",也是最早研究 3D 集成電路的機構之一。之後的 2004 年,日本的爾必達也開始自己研發 TSV,并于 2006 年開發出采用 TSV 技術的堆棧 8 顆 128Mb 的 DRAM 架構。
閃存行業先一步實現了 3D 堆疊的商業化,東芝在 2007 年 4 月推出了具有 8 個堆疊裸片的 NAND 閃存芯片,而海力士則是在同年 9 月推出了具有 24 個堆疊裸片的 NAND 閃存芯片。
而内存行業相對稍晚一點,爾必達在 2009 年 9 月推出了第一款采用 TSV 的 DRAM 芯片,其使用 8 顆 1GB DDR3 SDRAM 堆疊封裝而來。2011 年 3 月,SK 海力士推出了使用 TSV 技術的 16GB DDR3 内存(40 nm 級别),同年 9 月,三星推出了基于 TSV 的 3D 堆疊 32GB DDR3(30 nm 級别)。
集合了最新 TSV 技術的 HMC,不僅榮獲了 2011 年 The Linley Group(《微處理器報告》雜志出版商)所頒發的最佳新技術獎,還引發了一衆科技公司的興趣,包括三星、Open-Silicon、ARM、惠普、微軟、Altera 和賽靈思在内的多家公司,與美光組成了混合内存立方聯盟(HMCC),美光開始磨拳霍霍,準備開始一場更加徹底的内存技術革命。
JEDEC 的反擊
前面提到了美光技術專家 Pawlowski 對于舊内存标準的抨擊,尤其是 JEDEC 機構,似乎成了一個十惡不赦的壞蛋,仿佛是因爲它的存在,内存技術才遲遲得不到改進。
那麽 JEDEC 又是何方神聖呢?
JEDEC 固态技術協會(Solid State Technology Association)是固态及半導體工業界的一個标準化組織,最早曆史可以追溯到 1958 年,由電子工業聯盟(EIA)和美國電氣制造商協會(NEMA)聯合成立的聯合電子設備工程委員會(Joint Electron Device Engineering Council,JEDEC),其主要職責就是制定半導體的統一标準。而在 1999 年後,JEDEC 獨立成爲行業協會,确立了現在的名字并延續至今。
作爲一個行業協會,JEDEC 制定了 DRAM 組件的封裝标準,并在 20 世紀 80 年代末制定了内存模塊的封裝标準。" JC-42 及其小組委員會制定的标準,是我們能夠如此輕松地升級 PC 内存的原因。" 自 20 世紀 70 年代以來一直擔任 JEDEC 志願者的 Mark Bird 說道:" 我們對各個組件配置、SIMM、它們所在的插槽以及每一個設備的功能進行了标準化。"
雖然說做 DRAM 的廠商,肯定離不開 JEDEC 所制定的标準,但JEDEC 本質上并不具備強制性,其第一大原則就是開放性與自願性标準,所有标準都是開放性、自願性的,不會偏袒某一個國家與地區而歧視其他國家或地區,擁有近 300 家會員公司的它還奉行着一家公司一票與三分之二多數制的制度,從而降低了标準制定程序被任何一家或一批公司所把控的風險。
不管是美光也好,三星海力士也罷,它們并沒有能力去幹涉 JEDEC 标準的制定,即使 DRAM 廠商早已屈指可數,但标準的話語權并不由三巨頭所掌握,隻有大家真正認可,才會最終被推行爲正式标準。
這時候問題來了,行業還在 JEDEC 所制定的标準下前行,美光卻要單獨跳出來自己幹,還組建了屬于自己的聯盟,這聽起來有點像蘋果才會做的事,如同火線接口、早期雷電接口和 Lighting 接口等,東西是好東西,但是獨此一家别無分号。
要是美光這 HMC 技術足夠先進也就罷了,領先 JEDEC 四五年,也能像蘋果一樣賺筆小錢,也能和韓國廠商分庭抗禮了,隻可惜這技術隻領先了一兩年左右,甚至可能還沒有這麽久。
在美光公布 HMC 的 2011 年,JEDEC 就公布了關于 Wide IO 的 JESD229 标準,作爲一項 3D IC 存儲器接口标準,其正是爲了解決 DRAM 帶寬而來,基本概念是使用大量引腳,每個引腳的速度相對較慢,但功率較低。
2012 年 1 月,該标準正式通過,其中規定了 4 個 128 位通道,通過單數據速率技術連接到以 200MHz 頻率運行的 DRAM,總帶寬爲 100Gb/S,雖然還是不能與 HMC 的帶寬相媲美,但也從側面證明了 JEDEC 的标準并非一直原地踏步和一無是處。
當然,如果隻有 Wide IO 也就算了,畢竟 HMC 的理念足夠先進,雖然價格也很昂貴,但是總會有一部分高帶寬需求的産品來買單,前景還是挺光明的。
但到了 2013 年,又殺出了一個程咬金—— AMD 和海力士宣布了它們共同研發的 HBM,其使用了 128 位寬通道,最多可堆疊 8 個通道,形成 1024 位接口,總帶寬在 128GB/s 至 256GB/s 之間,DRAM 芯片堆疊數爲 4 至 8 個,且每個内存控制器都是獨立計時和控制的。
就成本和帶寬而言,HBM 是一個看似中庸的選擇,既不如 Wide I/O 便宜,帶寬也比不上 HMC,但中庸的 HBM 卻通過 GPU 确定了自己的地位,AMD 和英偉達先後都選擇了 HBM 來作爲自家顯卡的内存。
而給了美光 HMC 緻命一擊的是,HBM 剛推出沒多久,就被定爲了 JESD235 的行業标準,一個是行業内主要科技公司都加入的大組織,一個是美光自己拉起來的小圈子,比賽還沒正式開始,似乎就已經分出了勝負。
HMC 的末路
2013 年 4 月,HMC 1.0 規範正式推出,根據該規範,HMC 使用 16 通道或 8 通道(半尺寸)全雙工差分串行鏈路,每個通道有 10、12.5 或 15 Gbit/s 串行解串器,每個 HMC 封裝被命名爲一個 cube,它們可以通過 cube 與 cube 之間的鏈接以及一些 cube 将其鏈接用作直通鏈接,組成一個最多 8 個 cube 的網絡。
當然,在 HMC 1.0 發布時,美光依舊是信心滿滿,美光 DRAM 營銷副總裁 Robert Feurle 表示:" 這一裏程碑标志着内存牆的拆除。" " 該行業協議将有助于推動 HMC 技術的最快采用,我們相信這将徹底改進計算系統,并最終改進消費者應用程序。"
而在 2014 年 1 月舉行的 "DesignCon 2014" 上,美光首席技術專家 Pawlowski 表示 JEDEC 并沒有在 DDR4 之後做出任何新的努力,"HMC 需要的隻是一個 SerDes(串行器 / 解串器)接口,其具有簡單指令集,不需要所有細節,未來的趨勢是 HMC 取代 DDR 成爲 DRAM 的新标準。" 他說到。
事實真的和美光說的一樣嗎?
當然不是,HMC 看似強大的帶寬,是建立在昂貴成本之上的,從 2013 年第一版規範開始算起,真正采用了 HMC 技術的産品,也隻有天文學項目 The Square Kilometer Array、富士通的超級計算機 PRIMEHPC FX 100、Juniper 的高性能網絡路由器和數據中心交換機以及英特爾的 Xeon Phi 協處理器。
看到英特爾也别太興奮,據美光公司稱,雖然 Xeon Phi 協處理器的内存解決方案采用與 HMC 相同的技術,但它專門針對集成到英特爾的 Knight's Landing 平台中進行了優化,沒有标準化計劃,也無法提供給其他客戶,什麽意思呢?就是英特爾沒完全遵循 HMC,自己另外搞了一套标準。
而且,别說普通消費者了,連英偉達和 AMD 的專業加速卡都與 HMC 無緣,HBM 已經足夠昂貴了,HMC 比起它還要再貴一些,美光雖然沒有公布過具體的費用,但我們相信,這個價格一定會是大部分廠商所不能承受之重,内存帶寬重要是不假,但過于昂貴的成本,隻會勸退客戶。
值得一提的是,三星和海力士雖然也一度加入過 HMCC 聯盟中,但它們并不是主要推動者,甚至沒有大規模量産過 HMC 産品。2016 年之後,兩家都專注于 HBM 了,除了幾個鐵哥們願意支持一下美光,HMCC 的成員更多是重在參與。
時間來到 2018 年,HMC 早就沒有了 2011 年時的風光,用門可羅雀來形容也不過分,人工智能在這一年開始興起,高帶寬成爲了内存行業的重心,但背後的市場幾乎都被 HBM 招徕走了,主推該标準的海力士與三星成了大赢家。
Objective Analysis 首席分析師吉姆 · 漢迪(Jim Handy)在 2018 年 1 月接受媒體采訪時,對美光發出了警告:" 英特爾未來也會從 HMC 變體轉向 HBM,考慮到二者間沒有太大區别,如果美光必須轉型,損失也不會太大。"
好在美光沒有執迷不悟,在 2018 年 8 月宣布正式放棄 HMC,轉而追求具有競争性的高性能存儲技術,也就是 HBM,但大家都準備搞 HBM2E 了,美光此時再入場,不論是吃肉還是喝湯都輪不到它,隻能慢慢追趕。
2020 年 3 月,美光的 HBM2 也就是第二代 HBM 才姗姗來遲,其最新量産的 HBM 也止步于 HBM2E,明顯落後于兩家韓廠,而市場也忠實反饋了這一差距,根據 TrendForce 的最新數據,SK 海力士占據全球 HBM 市場 50% 的份額,位居第一;三星緊随其後,占據 40% 的份額;而美光位居第三,僅占據 10% 的份額。
不過有意思的是,美光似乎對 HMC 并未完全死心。
2020 年 3 月,美光公司高級計算解決方案副總裁 Steve Pawlowski 表示,美光是 HMC 技術最早和最有力的支持者之一,如今的重點是該架構如何能夠滿足特定用例(包括人工智能)的高帶寬内存需求,事實上在 HMC 最初構想時,人工智能并不存在。" 我們怎樣才能在低功耗、高帶寬方面獲得最大的性價比,同時能夠爲我們的客戶提供更具成本效益的封裝解決方案?" 他說到。
Pawlowski 還表示,美光繼續通過 " 探路計劃 " 探索 HMC 的潛力,而不是遵循最初的規格更新計劃,從性能角度來看,HMC 是一個出色的解決方案,但客戶也在尋求更大的容量,新興的人工智能工作負載更注重帶寬,因此這正是 HMC 架構的潛力所在。
"HMC 似乎仍有生命力,它的架構可能适用于最初構想時并不存在的應用。"Pawlowski 說,"HMC 是領先于時代的技術的一個極好例子,它需要建立一個生态系統才能被廣泛采用,我的直覺是,HMC 風格的架構就屬于這一陣營。"
遙遙落後的美光
如今是 2024 年年初,HBM 已經火爆了一整年,SK 海力士、三星和美光無不以下一代 HBM3E 乃至 HBM4 爲目标,努力保證自家的技術領先。尤其是美光,爲了改善自己在 HBM 市場中的被動地位,它選擇了直接跳過第四代 HBM 即 HBM3,直接升級到了第五代。
2023 年 9 月,美光宣布推出 HBM3 Gen2(即 HBM3E),後續表示計劃于 2024 年初開始大批量發貨 HBM3 Gen2 内存,同時透露英偉達是主要客戶之一,美光總裁兼首席執行官 Sanjay Mehrotra 也在公司财報電話會議裏表示:" 我們的 HBM3 Gen2 産品系列的推出引起了客戶的濃厚興趣和熱情。"
但對于美光來說,技術迎頭趕上隻是第一步,更重要的是能不能在标準上掌握話語權。2022 年 1 月,JEDEC 發布了最新的 HBM3 标準,其主要貢獻者就是美光老對手,也是 HBM 的創造者之一—— SK 海力士,而現在被普遍認可的 HBM3E 這一名稱,同樣來源于 SK 海力士。
成爲标準貢獻者有啥好處呢?那就是 SK 海力士所推出的 HBM3E 可以大方宣稱自己的向後兼容性,即使在沒有設計或結構修改的情況下,也能将這一産品應用于已經爲 HBM3 準備的設備上,不管是英偉達還是 AMD,都可以輕松升級原有的産品,滿足更多客戶的需要。
而據 Business Korea 報道,英偉達已經與 SK 海力士簽訂 HBM3E 優先供應協議,用于新一代 B100 計算卡,雖然美光和三星都向英偉達提供了 HBM3E 的樣品,完成驗證測試後就會正式簽約,但有業内人士預計,SK 海力士仍然會率先取得 HBM3E 供應合同,并從中獲得最大的供應份額。
此前我們談到過,存儲巨頭們一直夢想着一件事情,就是擺脫傳統的半導體周期,過上更爲安穩的日子,HMC 曾是美光的一個夢想,用新标準取代舊标準,用封閉生态代替開放生态,希望憑借它來成爲 DRAM 技術領導者,但它卻陷入到一個怪圈當中:HMC 價格更昂貴—客戶缺乏意向—成本增加導緻價格上漲—流失更多潛在客戶。
目前來看,HBM 是一個更好的切入口,它在新型 DRAM 的市場和利潤間取得了一個微妙平衡,而 SK 海力士就是三巨頭裏走得最遠的一家,考慮到未來 AI 芯片的性能很大程度上受到 HBM 的放置和封裝方式的影響,SK 海力士很有可能成爲第一個跳出周期的廠商。
美光首席技術專家 Pawlowski 在 2011 年的 Hot Chip 上大力批判了落後的内存标準,但他絕對不會想到的是,看似先進的 HMC 最終會被納入 JEDEC 标準的 HBM 所擊敗。美光空耗了六七年時間,最終甜美果實卻被韓廠摘走,讓人感慨不已。