十年前,英國《經濟學人》曾用工業用電量為主的指标來評估中國 GDP,而現在算力已經成為新的指标。似乎每個企業、每個城市都在努力增加算力。
一位讀者不無困惑地留言,大家都說自己算力有多少 FLOPS,能支撐這個大模型、那個大數據,是不是數字越大就算力越強呢?
還真不是。
衡量算力水平,除了運算次數,還要看算力精度,也就是能夠支持的數據精度和運算複雜度有多高。
如果說運算次數(FLPOS)代表的是内力值,那麼算力精度就像是 " 身法 ",決定了能否用對内力、用好内力。武林對決,有人拿屠龍刀一通亂砍,令狐沖靠獨孤九劍劍法一擊必中,你覺得誰水平高?
不同計算任務,對算力需求不盡相同,需要恰當的 " 身法 ",來發揮算力的價值。
具體來說,根據數據類型的不同,适配的算力精度也有所區别:
比如科學計算,天氣預報、運算化學、分子模型、天體物理模拟等,數據精度要求高,需要雙精度算力(64 位,FP64),是由超級計算機提供的一種通用算力。
AI 模型訓練,自動駕駛、智慧城市、AIGC 等業務,需要學習大量數據,訓練出一個複雜的深度學習模型,而處理大規模浮點型數據,更适合用單精度算力(32 位,FP32)、半精度算力(16 位,FP16)。近年來,預訓練大模型爆發,湧現出了 DALLE、ChatGPT、紫東太初等一波波大模型,參數動辄達到千億萬億,大模型的高效訓練需要用到大量的單精度算力。
訓練好并部署的模型,實際應用時隻需要根據輸入的數據,推理出各種結論,比如人臉識别、車牌識别、語音識别等,這個 AI 推理的過程,處理的是整數型數據,更适用于整型算力(INT8)。
那麼問題來了,一般來說,某一個區域内,既有高精尖科研、智慧城市、自動駕駛這類高性能計算,帶來了通用算力的需求;又要有 AI 模型訓練、AI 應用推理等來支撐産業數轉智改,對專用算力的需求也很高。
如果區域内算力配置不夠多樣化,少了某一種算力,相當于等用戶上了戰場對敵時,才發現無招可用或事倍功半,必然會限制當地數字化的發展。
因此,各地在進行智算中心建設時,從長遠來看,就必須考慮算力的多樣化、普适性。
但現實情況是,很多地方的智算中心,處于 " 先批快建 "、各自為戰的階段,由于 AI 産業 / 科學計算 / 産業數字化等迅猛發展,迫切需要補足某種專用算力,應對算力焦渴,缺乏通用算力的統籌規劃。
随着東數西算工程、數字中國等一系列措施的推進,進入 " 十四五 " 發展新時期,專用算力的通用化難題,就成為掣肘地方數字經濟發展的當務之急。
前不久發布的《智能計算中心 2.0 時代展望報告》中也強調,當前個别地區選擇的算力配置出現一定 " 偏科 " 現象,隻能滿足一部分細分場景的需求,不能兼顧多産業、多領域對融合算力的需求。需要推動通用算力、專用算力融合,驅動應用走向縱深。
對于高校、科研機構、企業、政府等各類算力用戶來說,算力融合究竟能帶來哪些利好?
破解 " 算力偏科 ",
算力融合價值幾何?
一言以蔽之,算力融合,意味着用戶可以對不同算力資源随取随用,無論是辦公數字化需要的通用算力,還是 AI 應用需要的專用算力,抑或是氣象預報、生物預測等需要的高性能算力,都可以融會貫通、博采衆長,支撐自身業務的發展,成為一個算力 " 通才 "。
從這個角度看,通用算力、專用算力的融合,會帶來三重明顯的價值:
一是數字經濟的可持續。數字經濟已經成為各個區域發展的主調,其中包含的算力應用場景是非常廣泛的,根據應用場景來進行算力部署,更快地建立優勢。比如某省會城市希望打造人工智能高地,同時高校牽頭建立遙感産業集群,專用算力、通用算力相融合,能支撐更加豐富的應用場景,為當地數字經濟的長期可持續發展提供算力保障。
二是綜合成本的下降。算力基礎設施的建設成本極高,在前期規劃時做好多種算力的配置,能使基礎設施的利用率提升,既保證算力充足,同時精益地滿足各類任務所需,從而提高算力的綜合效益,降低算力的使用成本,讓區域内的算力更加普惠、更多用戶受益。
三是多元供應的可靠性。算力融合意味着需要不同計算單元、多種架構并存、多種軟硬件兼容,新型算力基礎設施走向開放、多元、兼容,相當于 " 不把雞蛋放在一個籃子裡 ",能夠降低供應鍊的不确定風險,長期來看能夠讓算力更加安全可靠。
算力融合,相當于一個武林高手,無論華山劍法、少林功夫、武當太極,各種 " 身法 " 都能信手拈來,那麼面對任一種計算任務的挑戰,自然可以遊刃有餘。
縱橫 2.0 階段:數字江湖兒女
需要怎樣的算力底座
即将到來的數字經濟浪潮中,每個人都要化身江湖兒女、弄潮時代,這時候,一個通用性的算力底座,就如同通曉全門派武功身法的 " 神助攻 ",可以提供全精度多元算力,讓用戶更從容地應對業務變化和挑戰。
國家工業信息安全發展研究中心在《報告》中提出,智算中心在 2017-2021 年高速擴張的 1.0 階段,主要提供的是專用性的算力。從 2022 年開始進入 2.0 階段,需要利用 CPU 與 GPU 等加速芯片的異構重合,來實現高精度通用算力和低精度專用算力的融合供應。
由此可見,智算中心的下一步重點,就是向通用算力底座發展。而建設這樣一個通用算力底座,有 " 一橫一縱 " 兩個基本要求:
一橫:多元算力需要多元架構,智算中心必須 " 橫向 " 兼容。
智算中心 1.0 階段,采用的是垂直一體的煙囪式的方案,針對性地滿足高性能計算、人工智能、大數據計算等不同的應用負載,通用性和兼容性比較低。多樣化的通用算力底座,要實現不同架構的芯片平台、不同場上的算法模型以及數據集的橫向兼容,讓用戶可以根據業務場景和計算任務選擇最适合的算力方案。
一縱:通用算力需要軟硬協同,智算中心必須 " 縱向 " 耦合。
不同技術路線的芯片、算法、模型、應用等要素,需要産業鍊上下遊的打通,解決軟硬件兼容性的問題,芯片制造廠、中端廠商和軟件開發商,通過軟件優化、架構整合和軟硬件協同,來提升計算的整體性能。
打破垂直一體模式,走向 " 橫向 " 兼容 " 縱向 " 耦合,成為智算中心 2.0 時代的關鍵,從而支撐千行百業在數字時代縱橫馳騁。
見招拆招:
智算中心的未來挑戰
智算中心 1.0 階段快速擴張,統計數據顯示,目前中國已經有超過 30 個城市在建設或提出建設智算中心。未來數字經濟中 80% 的場景和算力資源要由智算中心進行承載。這是一個巨大的機遇,但機會越大,所應該承擔的責任也就越大。
如前所說,智算中心在 2.0 階段必須走向 " 橫向 " 兼容 " 縱向 " 耦合的目标,飯要一口口吃,算力融合也要一步步走,把每一個環節做好,見招拆招。
具體來說,智算中心的算力融合,要從四個核心環節來做功,分别是:算力生産、算力聚合、算力調度、算力釋放。
算力生産方面,要具備多樣化算力的供給能力。為了實現不同架構芯片的多元化融合,智算中心的體系結構,已經從同構計算走向異構計算,國内外的科技企業如谷歌、英特爾、阿裡、百度,都在進行異構計算的研發。《智能計算中心 2.0 時代展望報告》中,曙光 5A 級智算中心也憑借全算力精度覆蓋、多樣化算力供應,成為産業内示範樣例。
算力聚合方面,要推動通用算力和專用算力的融合。目前來看,業界各個廠家的智算中心建設理念是比較類似,都在強調融合發展。
算力調度方面,融合的算力如何靈活、精益地為各行各業所取用呢?這就需要對多樣算力進行統一的調度和運營。宏觀來看,在東數西算工程的推動下,全國算力一體化網絡體系已經初步形成,為智算中心的算力調度建立了基礎。微觀來看,智算中心的建設者 / 參與者也開始建設算力運營平台,用精細化、智能化的手段來提高算力運營調度水平,比如曙光智算運營的全國一體化算力服務平台等。
算力釋放方面,算力融合的本質目的是讓千行百業用好算力、用對算力,所以多樣化算力如何更靈活的釋放到數字産業當中去,提供算力服務的應用,是智算中心在 2.0 階段的重中之重。
從産到用、見招拆招,智算中心 2.0 将是真正意義上的公共算力基礎設施,把澎湃的内力與适配的身法,交給千行百業。
一個全新的數字視界,已經向各行各業的俠士們廣發英雄帖。廣闊的産業機會,等待着大家去争取,去赢得自己在這個時代的勳章。
化多元化算力為己用,打開多元化的未來,智算中心 2.0 階段,一定會有更多傳奇的人和事。