如果您希望可以時常見面,歡迎标星收藏哦 ~
衆所周知,半導體領域從誕生之初就被分成了了兩個大類,即存儲與非存儲,其中存儲又被分爲易失性存儲器(内存)和非易失性存儲器(外存)兩個大類,前者在掉電時數據會立即消失,後者則不受斷電影響,持久儲存數據。
相較于非易失性存儲器的快速推成出新,易失性存儲器在過去四五十年裏沒有太大的變化,依舊以 DRAM(動态随機存取存儲器)和 SRAM(靜态随機存取存儲器)爲主,其中前者因應用範圍廣闊,再加上周期性的市場波動,早已成爲了半導體行業如今的風向标。
而後者 SRAM 與之相比,因其無需周期性更新存儲的數據,通電情況下數據可一直保存,具有訪問速度快的優點,通常用于 CPU 的高速緩存上面,但它處理 1 比特數據需要六個晶體管,而 DRAM 僅需一個晶體管,也導緻了集成度較低,在相同體積下容量較小,存在體積大、成本較高等缺點。
新思界産業研究中心的報告顯示,2021 年,全球半導體存儲器市場規模達到 1540 億美元左右,其中 SRAM 市場規模僅占極小一部分,2021 年全球 SRAM 市場規模約爲 4 億美元。在全球範圍内,美國是最大的 SRAM 需求市場,其次是日本。全球範圍内,SRAM 市場主要被美國賽普拉斯(Cypres)、日本瑞薩電子(Renesas)、美國 ISSI 公司(被北京君正收購)三家廠商所占據,合計市場占有率達到 82%。
在 2023 年以前,SRAM 向來是最被冷落的存儲技術之一,但随着近一年 AI 的爆火,情況正在悄然改變。
AI 帶火 SRAM
2024 年 2 月,谷歌 TPU 第一代設計者 Jonathan Ross 所創立的 Groq 公司正式宣布,其新一代 LPU 在多個公開測試中,以幾乎最低的價格,相比 GPU 推理速度翻倍,後續有三方測試結果表明,該芯片對大語言模型推理進行優化效果顯著,速度相較于英偉達 GPU 提高了 10 倍。
在首次公開基準測試結果中,Groq 搭載的 Llama2 或 Mistreal 模型在計算和響應速度上遠超 ChatGPT。這一成績背後,是 Groq 團隊爲大語言模型(LLM)量身定制的專用芯片(ASIC),它使得 Groq 每秒可以生成高達 500 個 token。相比之下,目前 ChatGPT-3.5 的公開版本每秒隻能生成大約 40 個 token。
根據知情人士透露,LPU 的工作原理與 GPU 截然不同。它采用了時序指令集計算機(Temporal Instruction Set Computer)架構,這意味着它無需像使用高帶寬存儲器(HBM)的 GPU 那樣頻繁地從内存中加載數據。這一特點不僅有助于避免 HBM 短缺的問題,還能有效降低成本。
有從事人工智能開發的用戶稱贊,Groq 是追求低延遲産品的 " 遊戲規則改變者 ",低延遲指的是從處理請求到獲得響應所需的時間。另一位用戶則表示,Groq 的 LPU 在未來有望對 GPU 在人工智能應用需求方面實現 " 革命性提升 ",并認爲它可能成爲英偉達 A100 和 H100 芯片的 " 高性能硬件 " 的有力替代品。
更重要的是,不同于其他 GPU 依賴于高速數據傳輸,Groq 的 LPU 并沒有采用高帶寬存儲器(HBM),它選擇的正是 SRAM,其速度比 GPU 所用的存儲器快約 20 倍。
一時間,和 SRAM 相關的概念股都成了香饽饽,不少人争先恐後地在投資平台詢問 AI 相關,SRAM 俨然成了又一個 HBM。
不過,很快就有專業人士給這波突如其來的熱潮降溫了:SRAM 早就是個非常成熟的技術了,CPU 中的寄存器和緩存都用的是 SRAM,SRAM 早已以 IP 内核形式完成在 SoC 的集成,本身的技術價值沒有更大的突破。雖然 SRAM 确實要比 DRAM 快,但其價格很貴,容量較小,LPU 乃至其他計算芯片,大量使用 SRAM 時需要有所權衡。
此外,也有人指出 Groq 選擇了 SRAM 的理由,主要是它隻負責推理、不訓練,而推理所需要的存儲空間比訓練要小得多,所以 Groq 的單闆卡隻有 230MB 的内存,由于成本和容量限制,需要謹慎看待 SRAM 這輪爆火。
即便如此,AI 還是給體量較小的 SRAM 打開了一條透着光的縫隙,一個全新的應用領域,就意味着更多的增長機會,而不是局限在之前的一畝三分地上。
有意思的是,早在 Groq 官宣新的 LPU 前,國外網站半導體工程已經與 Alphawave Semi 首席技術官 Tony Chan Carusone、Quadric 首席營銷官 Steve Roddy 和西門子 EDA 存儲技術專家 Jongsin Yun 就人工智能和 SRAM 的最新問題進行了讨論。
西門子 EDA 存儲技術專家 Jongsin Yun 表示, SRAM 與 CMOS 邏輯工藝兼容,這使得 SRAM 在從一種技術遷移到另一種技術時,可以跟蹤邏輯性能的提高。SRAM 是芯片内的本地可用存儲器。因此,它能提供即時訪問的數據,這也是它在人工智能應用中受到青睐的原因。憑借數十年的制造經驗,我們了解其大部分潛在問題以及如何最大限度地發揮其優勢。就性能而言,SRAM 是我們迄今所知性能最高的内存解決方案,因此成爲人工智能的首選。
Quadric 首席營銷官 Steve Roddy 則表示,SRAM 是任何人工智能處理解決方案的關鍵要素,SRAM 的用量在很大程度上取決于你談論的是數據中心還是設備,或者是訓練還是推理。但不論何種應用,在處理元件旁邊都會有大量的 SRAM。不同類型計算實現之間的所有架構差異,歸根結底都是管理内存、管理權重和激活流的不同策略,而這又極大地依賴于可用和可選的内存類型。任何芯片架構師都要根據自己的部署方案有效地規劃内存層次結構,但在任何方案中,都必須有 SRAM。
Alphawave Semi 首席技術官 Tony Chan Carusone 也表示,SRAM 對人工智能至關重要,尤其是嵌入式 SRAM。它的性能最高,而且可以直接與高密度邏輯集成在一起。僅從這些原因來看,它就非常重要。邏輯的擴展性要好于 SRAM。因此,SRAM 變得更加重要,并占用了更大一部分芯片面積。一些處理器上有大量的 SRAM,而且這種趨勢可能會繼續下去,這将成爲整個處理器的一個重要成本驅動因素。一個新趨勢是,将這些已達到視網膜極限的大型芯片分解成多個芯片組,并通過适當的互連,使它們能夠像一個大型芯片一樣運行,從而集成更多的計算和更多的 SRAM。反過來,大量的 SRAM 又進一步推動了向基于芯片的實現過渡。
通過這幾位專家的讨論我們可以發現,即便是不像 Groq 那樣直接把 SRAM 當作内存來使用,AI 依舊和 SRAM 脫不開幹系,SRAM 未來也有望随着 AI 的火熱來煥發第二春。
SRAM 的絆腳石
但困擾 SRAM 的,遠不止應用,還有技術。
前面提到過,SRAM 采用的是 6 晶體管架構 ( 邏輯區通常包含 4 個晶體管 / 單元 ) ,但是,在跟上 CMOS 縮放的步伐時,SRAM 卻表現不佳,這對功耗和性能産生了影響。随着人工智能設計對内部存儲器訪問的要求越來越高,如何在技術節點遷移過程中進一步擴大 SRAM 的功耗和性能優勢已成爲一項重大挑戰。
在 2022 年底,台積電的一篇論文帶來了可怕的壞消息——雖然邏輯仍在或多或少地沿着曆史趨勢線擴展,但 SRAM 擴展似乎已經完全崩潰。
台積電曾在正式推出 N3 制造技術時表示,與 N5(5 納米級)工藝相比,新節點的邏輯密度将提高 1.6 倍和 1.7 倍,而台積電在論文卻承認,與 N5 相比,新技術的 SRAM 單元幾乎沒有擴展。
台積電 N3 的 SRAM 位元尺寸爲 0.0199 µ m^ ²,與 N5 的 0.021 µ m^ ² SRAM 位元相比,僅縮小了約 5%。改進後的 N3E 情況更糟,因爲它配備了 0.021 µ m^ ² SRAM 位元組(大緻相當于 31.8 Mib/mm^ ²),這意味着與 N5 相比完全沒有縮放。
随着芯片性能的增長,對緩存和 SRAM 的需求隻會增加,但 N3(僅用于少數産品)和 N3E 卻無法減少 SRAM 占用的芯片面積,也無法降低新節點比 N5 更高的成本。從根本上說,這意味着高性能處理器的芯片尺寸将增大,成本也将增加,同時 SRAM 單元也會與邏輯單元一樣容易出現缺陷。雖然芯片設計人員将能夠利用台積電 N3 的 FinFlex 創新技術(在一個區塊中混合和匹配不同種類的 FinFET,以優化其性能、功耗或面積)來緩解 SRAM 單元變大的問題,但無法根治 SRAM 無法擴展這一問題
事實上,早在 20nm 制程中,SRAM 就無法與邏輯相應地擴展,這也注定了當片上存儲器變得比芯片本身還要大時,會面臨功耗和性能方面的挑戰。而針對這些問題,系統設計人員和硬件開發人員也從那時就在不斷提出新的解決方案和開發新的技術。
AMD 采取了不同的方法。它推出了一種名爲 3D V-Cache 的技術,該技術允許将單獨芯片上的附加 SRAM 高速緩存存儲器堆疊在處理器頂部,從而增加處理器内核可用的高速緩存量。額外的芯片增加了成本,但允許訪問額外的 SRAM。
另一種策略是擁有多級緩存。處理器内核可以擁有隻有它們才能訪問的私有(非共享)一級和二級緩存,以及在處理器内核之間共享的更大的末級緩存 ( LLC ) 。由于處理器擁有如此多的内核,共享 LLC 允許某些内核有時使用更多容量,而另一些内核有時使用更少容量,以便在所有處理器内核上更有效地使用總容量。"
設計人員采取的另一種方法是盡可能隻使用單核存儲器。在較舊的工藝節點中,編寫寄存器文件時,使用雙核存儲器的可能性要大得多,但這樣做也會增加面積。因此,在較低的節點中,設計人員會盡量讓所有東西都從存儲器的單端口運行,因爲這些是最小、最密集的全功率選擇。他們不一定會放棄 SRAM,但他們會盡可能使用單核内存,選擇嘗試使用較小的存儲器,并選擇 SRAM 來獲得可用帶寬,而不是真正的大存儲。
還有一種方法就是在 SRAM 外圍設計中增加支持電路。SRAM 和外圍設備不再共享電源。取而代之的是采用雙電源軌,以單獨利用最高效的電壓電平,在某些設計中,SRAM 可以進入休眠模式,隻需最低電壓即可保留數據,直到 CPU 的下一次訪問。由于洩漏電流與 VDD 呈指數關系,因此這種設計具有顯著的功耗優勢。一些 SRAM 設計采用了額外的電路來解決運行中的薄弱環節,目的是提高最低工作電壓。
例如,高密度(HD)SRAM 單元可以通過對所有 6 個晶體管使用單鳍晶體管來實現最小的幾何尺寸。然而,由于在寫入操作過程中相同尺寸的上拉 ( PU ) 和過栅 ( PG ) 晶體管之間存在争用問題,因此 HD 單元在低壓工作時面臨挑戰。
當然,用新的嵌入式存儲器類型來替代 SRAM 也是一種可行方法,但每種類型都有自己的問題。主要的競争者 MRAM 和 ReRAM 隻占用一個晶體管面積,雖然它們的晶體管面積比 SRAM 大,但它們的整體單元尺寸仍然隻有 SRAM 的三分之一,包括外圍電路在内的宏觀尺寸目标成品尺寸隻有 SRAM 的一半左右。雖然在尺寸上有明顯優勢,但寫入速度的性能仍然遠遠低于 SRAM。
imec 公司的 Hellings 也提出了自己的想法,如果物理學不允許使用更小的 SRAM,那麽替代方案就需要重新考慮架構并采用芯片組。如果 SRAM 不能在 N3 或 N2 中擴展,那麽我們可以将更先進的邏輯芯片與用較老技術制造的 SRAM 芯片結合起來。這種方法可以提高邏輯的 PPA,同時使用具有成本效益的(較舊的、可能産量更高、成本更低)技術節點來制造 SRAM。原則上,AMD 基于 V-cache 的系統可以進行擴展,隻将邏輯芯片轉移到下一個節點。然後,需要使用 3D 集成或芯片組方法(2.5D)将兩個芯片組合在一起。
在後摩爾時代,當 SRAM 擴展變得不那麽容易的時候,大家都在齊心協力地尋找方法,尋找一種破解之道,讓 SRAM 跟上邏輯電路的腳步,但截至目前,行業内依舊沒有一個公認合理的,兼顧擴展、功耗和成本三方面的解決方案。
新的解決方案
在衆多老牌廠商上下求索之際,也有初創企業在發光發熱。
以色列初創公司 RAAAM Memory Technologies 在今年 4 月宣布獲得 400 萬美元融資,用于開發系統級芯片 ( SoC ) SRAM 替代産品。
該公司成立于 2021 年,由來自巴伊蘭大學和瑞士洛桑聯邦理工學院(EPFL)的四位專門從事超大規模集成電路(VLSI)設計的博士創建,分别是羅伯特 - 吉特曼(Robert Giterman)、洛桑聯邦理工學院副教授兼電信電路實驗室主任安德烈亞斯 - 伯格(Andreas Burg)、巴伊蘭大學教授兼顧問亞曆山大 - 費什(Alexander Fish)和巴伊蘭大學副教授兼科學顧問亞當 - 特曼(Adam ( Adi ) Teman)。
RAAAM 聯合創始人兼首席執行官羅伯特 - 吉特曼(Robert Giterman)在一份聲明中說:"RAAAM 的增益單元随機存取存儲器(GCRAM)技術是一種獨特的片上存儲器解決方案,隻需要三個晶體管就能存儲一位數據,而現有的基于 SRAM 的最高密度存儲器技術需要 6-8 個晶體管。GCRAM 解決方案可将面積縮小一半,功耗降低五倍,并可采用标準 CMOS 工藝進行低成本制造。"
RAAAM 官方表示,GCRAM 與标準 CMOS 完全兼容,可用作任何 SoC 的 SRAM 直接替代品,通過縮小芯片尺寸降低制造成本,或通過在相同芯片尺寸内增加存儲器容量提高系統性能。
該公司表示,SoC 将越來越多的片上面積用于嵌入式存儲器 SRAM,SRAM 使用具有兩個穩定狀态的觸發器電路來存儲二進制位值。該電路需要四個晶體管來存儲一個比特,兩個晶體管來控制單元的訪問,SoC 嵌入式存儲器的尺寸正在不斷增大,在人工智能和機器學習等某些應用中,其尺寸已達到 SoC 總面積的 75%,這無疑限制了 SoC 的開發和應用。
據 RAAAM 官方表示,GCRAM 技術依賴于隻需 2-3 個晶體管(取決于面積或性能優先級)的高密度位元組。與高密度 6T SRAM 設計相比,這種結構最多可将面積縮小 2 倍。位元組由去耦寫入和讀取端口組成,提供原生雙端口操作,由寄生存儲節點電容保存數據。與傳統的 1T-1C eDRAM 不同,GCRAM 不依賴于微妙的電荷共享來讀取數據。相反,RAAAM 的 GCRAM 提供一個有源讀取晶體管,可提供放大的位線電流,從而提供低延遲的非破壞性讀取,而無需大型存儲電容器。因此,GCRAM 無需對标準 CMOS 制造工藝進行任何改動或增加成本,而且隻要設計得當,就能随着技術的發展而擴展。
其認爲,雖然過去曾嘗試過 2T/3T 存儲單元的概念,但迄今爲止,寄生存儲電容的減少和對漏電流增加的擔憂阻礙了其在 65 納米以上的應用。RAAAM 的專利創新包括存儲器位元和外圍層的巧妙電路設計,從而顯著降低了位元漏電,提高了數據保持時間,并針對各種應用優化了專門的刷新算法,确保即使在最極端的工作條件下也能保持極高的存儲器可用性。事實上,RAAAM 已經展示了 GCRAM 技術在各種代工廠(如台積電、意法半導體、三星、聯電)工藝節點上的成功擴展,包括在 28 納米(Bulk 和 FD-SOI)和 16 納米 FinFET 技術上實現高達 1Mbit GCRAM 存儲器宏的矽演示器。
GCRAM 的演示文稿中,也詳細介紹了該技術如何使用獨立的讀寫端口,而不是 DRAM 的每個單元組合讀寫端口,這使它能夠放大單元存儲的電荷,并分别優化讀寫過程,同時保持類似 SRAM 的性能。
目前 RAAAM 的種子輪投資者包括 Serpentine Ventures、J-Ventures、HackCapital、Silicon Catalyst Angels、Claves Investments 以及作爲戰略投資者的一家大型跨國半導體公司。
對于走至窮途末路的 SRAM 來說,RAAAM 的 GCRAM 技術提供了一種新思路,打開了一扇新的大門,更好的消息是 RAAAM 不會直接賣存儲器,隻做技術的授權。
根據官方介紹,RAAAM 采用的是知識産權供應商許可模式,,半導體公司在支付一定的費用和生産單位專利使用費後,就可以獲得 RAAAM 的 GCRAM 技術授權,RAAAM 會根據客戶規格實現前端存儲器控制器和基于 GCRAM 的硬存儲器宏,并提供軟 RTL 封裝(使用标準 SRAM 接口),該封裝器實例化了 GCRAM 硬宏 ( GDS ) 和軟刷新控制 ( RTL ) 。此外,客戶還會收到硬存儲器宏的特性報告和用于系統級驗證的行爲模型。
目前,RAAAM 正在實施和鑒定基于 GCRAM 的存儲器編譯器,該編譯器将使 RAAAM 的客戶能夠根據客戶規格自動生成 GCRAM IP 的完整前端和後端視圖以及相應的特性報告。
問題來了,RAAAM,以及前文中提到的幾個方向,誰才是 SRAM 的大救星呢?
點這裏加關注,鎖定更多原創内容