如果您希望可以時常見面,歡迎标星收藏哦 ~
今天,芯片初創公司 Cerebras Systems 推出了全新的 Wafer Scale Engine 3,病将其現有的最快 AI 芯片世界紀錄加倍。
據介紹,在相同的功耗和相同的價格下,WSE - 3 的性能是之前的記錄保持者 Cerebras WSE-2 的兩倍。基于 5nm 的 4 萬億晶體管 WSE-3 專爲訓練業界最大的 AI 模型而構建,爲 Cerebras CS-3 AI 超級計算機提供動力,通過 900,000 個 AI 優化計算核心提供 125 petaflops 的峰值 AI 性能。
一顆驚人的芯片,約等于 62 顆 H100
Cerebras Systems 表示,這款新器件使用台積電的 5nm 工藝打造,包含 4 萬億個晶體管;90 萬個 AI 核心;44GB 片上 SRAM;;外部存儲器爲 1.5TB、12TB 或 1.2PB;峰值性能爲 125 FP16 PetaFLOPS。Ceberas 的 WSE-3 将用于訓練一些業界最大的人工智能模型,能訓練多達 24 萬億個參數的 AI 模型;其打造的集群規模高達 2048 個 CS-3 系統。
值得一提的是,當 Cerebras 提到内存時,他們談論的更多的是 SRAM,而不是片外 HBM3E 或 DDR5。内存與核心一起分布,目的是使數據和計算盡可能接近。
爲了展示這顆新芯片的規模,Cerebras 還将其與英偉達的 H100 進行了對比。
除了将這款巨型芯片推向市場之外,Cerebras 取得成功的原因之一是它所做的事情與 NVIDIA 不同。NVIDIA、AMD、英特爾等公司采用大型台積電晶圓并将其切成更小的部分來制造芯片,而 Cerebras 将晶圓保留在一起。在當今的集群中,可能有數以萬計的 GPU 或 AI 加速器來處理一個問題,将芯片數量減少 50 倍以上可以降低互連和網絡成本以及功耗。在具有 Infiniband、以太網、PCIe 和 NVLink 交換機的 NVIDIA GPU 集群中,大量的電力和成本花費在重新鏈接芯片上。Cerebras 通過将整個芯片保持在一起來解決這個問題。憑借 WSE-3,Cerebras 可以繼續生産世界上最大的單芯片。它呈正方形,邊長爲 21.5 厘米,幾乎使用整個 300 毫米矽片來制造一個芯片。
你可以在 WSE 芯片的相繼推出中看到摩爾定律 的作用。第一個于 2019 年首次亮相,采用台積電的 16 納米技術制造。對于 2021 年推出的 WSE-2,Cerebras 轉而采用台積電的 7 納米工藝。WSE-3 采用這家代工巨頭的 5 納米技術制造。
自第一個巨型芯片問世以來,晶體管的數量增加了兩倍多。與此同時,它們的用途也發生了變化。例如,芯片上的人工智能核心數量已顯着趨于平穩,内存量和内部帶寬也是如此。盡管如此,每秒浮點運算(flops)方面的性能改進已經超過了所有其他指标。
需要注意的一點是,Cerebras 使用片上内存,而不是 NVIDIA 的封裝内存,因此我們不會以 H100 上的 80GB HBM3 爲例。
最新的 Cerebras 軟件框架爲 PyTorch 2.0 和最新的 AI 模型和技術(如多模态模型、視覺轉換器、專家混合和擴散)提供原生支持。Cerebras 仍然是唯一爲動态和非結構化稀疏性提供本機硬件加速的平台,将訓練速度提高了 8 倍。
您可能已經看到 Cerebras 表示其平台比 NVIDIA 的平台更易于使用。造成這種情況的一個重要原因是 Cerebras 存儲權重和激活的方式,并且它不必擴展到系統中的多個 GPU,然後擴展到集群中的多個 GPU 服務器。
除了代碼更改很容易之外,Cerebras 表示它的訓練速度比 Meta GPU 集群更快。當然,目前這似乎是理論上的 Cerebras CS-3 集群,因爲我們沒有聽說有任何 2048 個 CS-3 集群啓動并運行,而 Meta 已經有了 AI GPU 集群。
總體而言,這裏發生了很多事情,但我們知道的一件事是,如今越來越多的人使用基于 NVIDIA 的集群。
Cerebras Systems 進一步指出,由于每個組件都針對 AI 工作進行了優化,CS-3 比任何其他系統都能以更小的空間和更低的功耗提供更高的計算性能。雖然 GPU 功耗逐代翻倍,但 CS-3 的性能翻倍,但功耗保持不變。CS-3 具有卓越的易用性,與适用于大模型的 GPU 相比, CS-3 需要的代碼減少 97% ,并且能夠在純數據并行模式下訓練從 1B 到 24 T 參數的模型。GPT -3 大小的模型的标準實現在 Cerebras 上隻需要 565 行代碼——這同樣也是行業記錄。
一個龐大的系統,冷卻超乎想象
Cerebras CS-3 是第三代 Wafer Scale 系統。其頂部具有 MTP/MPO 光纖連接,以及用于冷卻的電源、風扇和冗餘泵。
Cerebras Systems 在新聞稿中指出,如上所述,CS-3 擁有高達 1.2 PB 的巨大内存系統,旨在訓練比 GPT-4 和 Gemini 大 10 倍的下一代前沿模型。24 萬億參數模型可以存儲在單個邏輯内存空間中,無需分區或重構,從而極大地簡化了訓練工作流程并提高了開發人員的工作效率。在 CS-3 上訓練一萬億參數模型就像在 GPU 上訓練十億參數模型一樣簡單。
CS-3 專爲滿足企業和超大規模需求而打造。緊湊的四系統配置可以在一天内微調 70B 模型,而使用 2048 個系統進行全面調整,Llama 70B 可以在一天内從頭開始訓練——這對于生成 AI 來說是前所未有的壯舉。
Cerebras 需要爲巨型芯片提供電力、數據和冷卻,同時還要管理相對較大區域的熱膨脹等問題。這是該公司的另一項重大工程勝利。芯片内部采用液體冷卻,熱量可以通過風扇或設施水排出。
該系統及其新芯片在相同的功耗和價格下實現了大約 2 倍的性能飛躍。從第一代的 16 納米到如今的 5 納米,Cerebras 從每個工藝步驟中都獲得了巨大的優勢。
與具有八個 NVIDIA H100 GPU 以及内部 NVSwitch 和 PCIe 交換機的 NVIDIA DGX H100 系統相比,它隻是一個更大的構建塊。
這是帶有 Supermicro 1U 服務器的 CS-3。
這是另一個使用 Supermciro 1U 服務器拍攝的 Cerebras 集群。Cerebras 通常使用 AMD EPYC 來獲得更高的核心數量,但也可能是因爲 Cerebras 團隊的很多成員來自被 AMD 收購的 SeaMicro。
我們在這次叠代中注意到的一點是,Cerebras 也有 HPE 服務器的解決方案。這有點奇怪,因爲一般來說,Supermicro BigTwin 比 HPE 的 2U 4 節點産品領先一步。
看待 Cerebras CS-2/CS-3 的一種方式是,它們是巨大的計算機器,但許多數據預處理、集群級任務等都發生在傳統的 x86 計算上,以提供優化的人工智能芯片。
由于這是一個液冷數據中心,因此風冷 HPE 服務器配備了來自 Legrand 子品牌 ColdLogik 的後門熱交換器設置。
這是 Cerebras 如何利用液冷設施的一個很好的例子,但它不必爲每個服務器節點配備冷闆。
這一代的一大特點是更大的集群,多達 2048 個 CS-3,可實現高達 256 exaFLOPs 的 AI 計算。
12PB 内存是一款高端超大規模 SKU,專爲快速訓練 GPT-5 尺寸模型而設計。Cerebras 還可以縮小到類似于單個 CS-2 的規模,并支持服務器和網絡。
部分内存不僅是片上内存(44GB),還包括支持服務器中的内存。
因此,Cerebras 集群可以訓練比以前更大的模型。
關于整個系統,在 SC22 的時候,該公司就曾基于 Cerebras CS-2 的系統展示了看起來像一堆金屬的東西,其中有一些印刷電路闆伸出來。該公司稱其爲發動機組(Engine Block)。在 Cerebras 看來,這是一項巨大的工程壯舉。弄清楚如何封裝、供電和冷卻大型芯片是一個關鍵的工程挑戰。讓代工廠制造特殊的晶圓是一回事。讓晶圓開機、不過熱并做有用的工作是另一回事。
這是另一邊的樣子。
當我們談論由于密度而必須轉向液體冷卻的服務器時,我們談論的是 2kW/U 服務器或可能具有 8x 800W 或 8x 1kW 部件的加速器托盤。對于 WSE/WSE-2,所有電力和冷卻都需要傳輸到單個大晶圓上,這意味着即使是不同材料的熱膨脹率等因素也很重要。另一個含義是,實際上該組件上的所有部件都采用液冷方式。
最上面一排木闆非常密集。展位上的 Cerebras 代表告訴我,這些是電源,這是有道理的,因爲我們看到它們的連接器密度相對較低。
Cerebras Condor Galaxy 的更新
在去年七月,Cerebras 宣布其 CS-2 系統取得重大勝利。它擁有一台價值 1 億美元的人工智能超級計算機,正在與阿布紮比的 G42 一起使用。這裏的關鍵是,這不僅僅是一個 IT 合作夥伴,也是一個客戶。
當前的第一階段有 32 個 CS-2 和超過 550 個 AMD EPYC 7003"Milan"CPU(注:Cerebras 首席執行官 Andrew Feldman 告訴我他們正在使用 Milan),隻是爲了向 Cerebras CS-2 提供數據。如今,32 個 GPU 相當于四個 NVIDIA DGX H100 系統,而 32 個 Cerebras CS-2 就像 32 個 NVIDIA DGX H100 集群,每個集群都位于單個芯片上,并在大芯片上進行互連。這更像是數百個(如果不是更多)DGX H100 系統,而這隻是第一階段。
在第二階段,加利福尼亞州聖克拉拉 / 科洛沃的安裝量預計将在 10 月份增加一倍。
除了 Condor Galaxy 1,還有另一個集群,即 Condor Galaxy 2,現已在 G42 上啓動并運行。
新的 Condor Galaxy 3 是達拉斯集群,它将使用新的 5nm WSE-3 和 CS-3 進行計算。
據介紹,Condor Galaxy 3 将由 64 個 CS-3 系統構建,産生 8 exa FLOP 的 AI 計算, 這是世界上最大的 AI 超級計算機之一。Condor Galaxy 3 是 Condor Galaxy 網絡中的第三個安裝。Cerebras G42 戰略合作夥伴關系旨在提供數十 exaFLOPs 的人工智能計算能力。Condor Galaxy 訓練了一些業界領先的開源模型,包括 Jais - 30B、Med42、Crystal-Coder - 7B 和 BTLM- 3B -8K 。
這些是目前位于美國聖克拉拉、斯托克頓和達拉斯的集群,但計劃是再建造至少六個。
這些集群的總價值應超過 10 億美元,并于 2024 年完工。除了 10 億美元的交易價值外,Cerebras 告訴我們,它們目前供應有限,因此對 WSE-3 的需求是存在的。
值得一提的是,雖然 Cerebras 專注于推理訓練,但它宣布與高通建立合作夥伴關系,以使用高通的傳統人工智能推理加速器。
雖然 Cerebras 計算機是爲訓練而構建的,但 Cerebras 首席執行官安德魯 · 費爾德曼 ( Andrew Feldman ) 表示,推理、神經網絡模型的執行才是人工智能采用的真正限制。據 Cerebras 估計,如果地球上每個人都使用 ChatGPT,每年将花費 1 萬億美元,更不用說大量的化石燃料能源了。(運營成本與神經網絡模型的規模和用戶數量成正比。)
因此,Cerebras 和高通建立了合作夥伴關系,目标是将推理成本降低 10 倍。Cerebras 表示,他們的解決方案将涉及應用神經網絡技術,例如權重數據壓縮和稀疏性(修剪不需要的連接)。該公司表示, 經過 Cerebras 訓練的網絡将在高通公司的新型推理芯片 AI 100 Ultra 上高效運行。
寫在最後
Cerebras Wafer Scale Engine 系列仍然是一項出色的工程設計。此次發布的一個重要内容是 5nm WSE-3 已經問世。最酷的事情之一是 Cerebras 從流程進步中獲得了巨大的進步。
我們知道 AMD MI300X 今年的收入将輕松超過 10 億美元。Cerebras 預計收入将超過 10 億美元,假設它正在銷售整個集群,而不僅僅是價值數百萬美元的 CS-3 盒子。NVIDIA 将于下周在 GTC 上詳細讨論 NVIDIA H200 和下一代 NVIDIA B100 時出售 10 億美元的硬件。我們将收到英特爾 Gaudi3 的最新消息,但我們已經聽到一些人分享了 2024 年九位數的銷售預測 Cerebras 可能是唯一一家專注于培訓、在收入方面與大型芯片制造商競争的公司。
" 八年前, 當我們開始這一旅程時,每個人都說晶圓級處理器是一個白日夢。我們非常自豪能夠推出第三代突破性水秤人工智能芯片。"Cerebras 首席執行官兼聯合創始人 Andrew Feldman ) 說道。" WSE-3 是世界上最快的 AI 芯片,專爲最新的尖端 AI 工作而設計,從專家混合到 24 萬億個參數模型 。我們很高興将 WSE-3 和 CS-3 推向市場,以幫助解決當今最大的人工智能挑戰。"
讓我們期待 Cerebras 2025 年下半年發布 WSE-4 帶來的驚喜。
參考鏈接
https://www.servethehome.com/cerebras-wse-3-ai-chip-launched-56x-larger-than-nvidia-h100-vertiv-supermicro-hpe-qualcomm/
https://www.hpcwire.com/off-the-wire/cerebras-systems-unveils-worlds-fastest-ai-chip-with-whopping-4-trillion-transistors/
https://spectrum.ieee.org/cerebras-chip-cs3
https://www.tomshardware.com/tech-industry/artificial-intelligence/cerebras-launches-900000-core-125-petaflops-wafer-scale-processor-for-ai-theoretically-equivalent-to-about-62-nvidia-h100-gpus
點這裏加關注,鎖定更多原創内容