人類社會已經進入算力時代。據中國信息通信研究院測算,截至 2021 年底,中國算力核心産業規模超過 1.5 萬億元,關聯産業規模超過 8 萬億元。其中,雲計算市場規模超過 3000 億元,互聯網數據中今天Retired 要和大家分享的是1000TOPS算力時代來臨 ,歡迎閱讀~
人類社會已經進入算力時代。
據中國信息通信研究院測算,截至 2021 年底,中國算力核心産業規模超過 1.5 萬億元,關聯産業規模超過 8 萬億元。其中,雲計算市場規模超過 3000 億元,互聯網數據中心(服務器)市場規模超過 1500 億元,AI 核心産業規模超過 4000 億元。
國内算力産業近五年平均增速超過 30%,算力規模超過 150EFlops(每秒 15000 京次浮點運算次數),排名全球第二,第一是美國。
數字經濟時代,算力高低成為綜合國力強弱的重要指标之一,高算力芯片技術是國家核心競争力的重要體現。
衆多場景已經進入超越 1000TOPS(Tera Operations Per Second, 處理器每秒可以進行一萬億次操作(1012))算力的時代。
01 超越 1000 TOPS 的高算力數據中心和超算
一個典型的超越 1000TOPS 算力的場景就是數據中心和超算。先來看數據中心對于算力的需求,工信部發布的《新型數據中心發展三年行動計劃 ( 2021-2023 年 ) 》明确了算力内涵并引入測算指标 FLOPS,對數據中心發展質量進行評價,指出到 2023 年底,總算力規模将超過 200 EFLOPS,高性能算力占比将達到 10%,到 2025 年,總算力規模将超過 300 EFLOPS。
而超算中心也早已邁入 E 級算力(百億億次運算每秒)時代,并正在向 Z(千 E)級算力發展。E(Exascale)級計算也就是百萬兆級的計算,是目前全球頂尖超算系統新的追逐目标。用一個不精确的說法來解釋百萬兆級計算,一個百萬兆級計算機一瞬間進行的計算,相當于地球上所有人每天每秒都不停地計算四年。
2022 年 5 月登頂世界超算 500 強榜單的美國國防部橡樹嶺國家實驗室 Frontier 超算中心,采用 AMD 公司 MI250X 高算力芯片(可提供 383 TOPS 算力),達到了 1.1 EOPS 雙精度浮點算力。
人工智能
不斷發展的人工智能也對芯片的算力提出更高的要求。人工智能的應用對于算力最大的挑戰依然來自于核心數據中心的模型訓練,近年來,算法模型的複雜度呈現指數級增長趨勢,正在不斷逼近算力的上限。
以 2020 年發布的 GPT3 預訓練語言模型為例,其擁有 1750 億個參數,使用 1000 億個詞彙的語料庫訓練,采用 1000 塊當時最先進的英偉達 A100 GPU(圖形處理器,624 TOPS)訓練仍需要 1 個月。
距離 GPT-3 問世不到一年,更大更複雜的語言模型,即超過一萬億參數的語言模型 Switch Transformer 已問世。目前,人工智能所需算力每兩個月即翻一倍,承載 AI 的新型算力基礎設施的供給水平,将直接影響 AI 創新叠代及産業 AI 應用落地。
AI 模型跑步進入萬億級時代,深度學習發展逐步進入大模型、大數據階段,模型參數和數據量呈爆發式增長,引發的算力需求平均每 2 年超過算力實際增長速度的 375 倍。
自動駕駛
自動駕駛任務需要高于 1000 TOPS 的高算力芯片。
自動駕駛的競争實際上是算力的競争。汽車從 L1、L2 向 L3、L4、L5 不斷推進,從某種意義上看,就是算力的競賽,每往上進階一級就意味着對算力的需求更高。高階自動駕駛對算力需求呈指數級上升。
2014 — 2016 年特斯拉 ModelS 的算力為 0.256TOPS,2017 年蔚來 ES8 的算力是 2.5TOPS,2019 年特斯拉 Model3 算力為 144TOPS,2021 年智己 L71070TOPS,2022 年蔚來 ET7 是 1016 TOPS。
綜合考慮集成電路技術發展下的芯片算力現狀和未來人工智能、數據中心、自動駕駛等領域的發展趨勢,未來高算力芯片需要不低于 1000 TOPS 的算力水平。
市場對于算力需求的增長遠遠超過摩爾定律的演進速度。OpenAI 的模型顯示,2010 年以來業内最複雜的 AI 模型算力需求漲了 100 億倍。目前解決算力的方式 80% 依靠并行計算和增加投資,10% 依靠 AI 算法進步,10% 依靠芯片單位算力進步。
02 1000TOPS 背後的 " 大算力芯片 "
單個芯片對于算力的追求是永無止盡的。目前來看,業内人士認為 " 單芯片算力達到 100TOPS" 就能稱之為 " 大算力芯片 "。
目前能夠推出單芯片超越 100TOPS 的企業并不多,包括:AMD 公司 MI250X 高算力芯片(可提供 383 TOPS 算力)、Mobileye EyeQ Ultra 單顆芯片(算力可達 176TOPS)等。
國内方面,寒武紀 2021 年也接連發布 2 款雲端 AI 芯片,分别是思元 290 和思元 370。思元 370 是寒武紀首款采用 chiplet(芯粒)技術的 AI 芯片,集成了 390 億個晶體管,最大算力高達 256TOPS ( INT8 ) ,是寒武紀第二代産品思元 270 算力的 2 倍。
此外,燧原科技、地平線、瀚博半導體、芯馳科技、黑芝麻智能等在 2021 年也都推出了大算力 AI 芯片,其中,燧原科技發布的 " 邃思 2.0",整數精度 INT8 算力高達 320TOPS。
目前推出算力超越 1000TOPS 的 SoC,唯有英偉達、高通,并且兩家企業推出的高算力芯片主要用于自動駕駛領域。
首先來看英偉達,在 2021 年 4 月,英偉達就已經發布了算力為 1000TOPS 的 DRIVE Atlan 芯片。到了今年,英偉達直接推出芯片 Thor,算力是 Atlan 的兩倍,達到 2000TOPS,并且在 2025 年投産,直接跳過了 1000TOPS 的 DRIVE Atlan 芯片。
其次是高通,今年同樣推出集成式汽車超算 SoC ——— Snapdragon Ride Flex,包括 Mid、High、Premium 三個級别。最高級的 Ride Flex Premium SoC 再加上 AI 加速器,其綜合 AI 算力能夠達到 2000TOPS。
超強算力的背後,是利用 SoC 的片上整合。異構計算通過多種計算單元混合協作模式提升計算并行度和效率,在移動互聯網、人工智能、雲計算等各類典型應用中占比顯著提高,并主要通過芯片内異構、節點内異構兩種模式實現性能、功耗與成本間的最佳均衡。芯片内異構典型代表為 SoC 芯片,以英偉達的 Thor 為例,Thor 之所以能實現如此高算力,主要得益于其整體架構中的 Hopper GPU、Next-Gen GPU Ada Lovelace 和 Grace CPU。
03 高算力芯片如何進化
實際上,芯片的算力由數據互連、單位晶體管提供的算力(通常由架構決定)、晶體管密度和芯片面積共同決定。因此想要實現算力的提高,需要從這幾個方面入手。
算力進化的路徑一:芯片系統架構的挑戰
200TOPS 以上的芯片對于訪存能力的要求非常高,需要支持更高的帶寬,這帶來系統架構設計複雜度的大幅度提升。
當前芯片主要采用馮 · 諾依曼架構 , 存儲和計算物理上是分離的。有數據顯示 , 過去二十年 , 處理器性能以每年大約 55% 的速度提升 , 内存性能的提升速度每年隻有 10% 左右。結果長期下來 , 不均衡的發展速度造成了當前的存儲速度嚴重滞後于處理器的計算速度 , 出現了 " 存儲牆 " 問題 , 最終導緻芯片性能難以跟上需求。
英偉達提出的 " 黃氏定律 ", 預測 GPU 将推動 AI 性能實現逐年翻倍 , 采用新技術協調并控制通過設備的信息流 , 最大限度減少數據傳輸 , 來避免 " 存儲牆 " 問題。
英偉達在 GPGPU 上叠代形成集成了張量核心(Tensor Core)的領域定制架構,2022 年最新發布的 H100 GPU 基于 4 nm 工藝,可以提供 2000 TFLOPS(萬億次浮點運算每秒)的算力。
算力進化的路徑二:先進工藝平台的挑戰
集成電路尺寸的微縮能夠帶來單位面積算力指數的提升。在相同架構的不同工藝下,随着工藝節點的縮小,英偉達 GPU 單位面積芯片算力持續提升。近年來,英偉達、AMD、蘋果的高算力芯片均采用 7、5 nm 先進制程實現。本質上,算力提升的核心是晶體管數量的增加。
作為 Intel 的創始人之一,Gordon Moore 在最初的模型中就指明,無論是從技術的角度還是成本的角度來看,單一芯片上的晶體管數量不能無限增加;因此,業内在緻力于提升晶體管密度的同時,也在嘗試其他軟硬件方式來提高芯片運行效率,如:異構計算、分布式運算等等。
算力進化的路徑三:大尺寸芯片工程的挑戰
大算力芯片的尺寸非常大,其在封裝、電源和熱管理、成本控制、良率等方面都存在嚴峻的挑戰。芯片的價格當然是面積越大越貴,芯片面積擴大一倍,價格高 3 到 5 倍甚至更高。
根據近 40 年來芯片面積的變化趨勢,可以看出随着高算力芯片的不斷發展,面積也持續增大,當前已接近單片集成的面積極限。既然單顆芯片的面積不能無限增加,将一顆芯片拆解為多顆芯片,分開制造再封裝到一起是一個很自然的想法。
異構集成 + 高速互聯塑造了 Chiplet 這一芯片屆的裡程碑。如果使用芯粒(Chiplet)設計技術,通過把不同功能芯片模塊化,利用新的設計、互連、封裝等技術,在一顆芯片産品中使用來自不同技術、不同制程甚至不同工廠的芯片,解決了芯片制造層面的效率問題。
04 結語
宏觀總算力 = 性能 x 數量(規模) x 利用率。
算力是由性能、規模、利用率三部分共同組成的,相輔相成,缺一不可:有的算力芯片,可能可以做到性能狂飙,但較少考慮芯片的通用性易用性,然後芯片銷量不高落地規模小,那就無法做到宏觀算力的真正提升。
有的算力提升方案,重在規模投入,攤大餅有一定作用,但不是解決未來算力需求數量級提升的根本。
現階段大國博弈加劇全球産業鍊、供應鍊重構,同時中國集成電路先進工藝的開發受到制約,單純依靠先進制程等技術的單點突破成本高、周期長。
采用成熟制程和先進集成,結合 CGRA 和存算一體等國内領先的新型架構,在芯粒技術基礎上實現晶圓級的高算力芯片是一條可行的突破路徑,該路徑能夠利用現有優勢技術,在更低的成本投入下,更快地提升芯片算力。
本文來自微信公衆号 " 半導體産業縱橫 "(ID:ICViews),作者:九林
關于1000TOPS算力時代來臨 就介紹完了,您有什麼想法可以聯系Retired 。