文 | 新眸,作者|李小東
直到現在,算力仍然被看作是制約國内 AI 發展的主要因素。
爲了解決這一問題,尤其是 ChatGPT 出現後,智算中心被視爲 AI 時代如同水和電一般的新基建,在全國各地落地開花。截至今年上半年,全國建成和在建的智算中心超過 250 個,有媒體報道,僅今年前七個月,就湧現出了 140 個新的中标項目。
建設這些智算中心背後涉及的公司和機構,除了城投、運營商、金融企業和一些央國企,大型的互聯網雲計算公司,比如華爲雲、阿裏雲、騰訊雲,甚至還有些從房地産等行業跨界過來的公司。
但另一組數據同樣值得關注:IDC 指出,以企業爲主要用戶的通用算力中心利用率,目前僅爲 10%-15%;之前有中科院院士公開表示,一些重量級的智算中心,現在大多甚至都處于閑置狀态。
從算力不足,到所謂的算力 " 過剩 ",核心問題實際上并沒有完全解決。這就意味着,動辄投資數十億甚至過百億的大項目,不僅沒有發揮出應該有的價值,還成了這場 AI 熱潮中代價最高的新難題。
算力供給風起雲湧
不少人對 " 智算中心 " 這個詞可能還感到陌生。但它其實不算個新詞,可以理解爲更高階的 " 計算中心 "。
在計算機科學興起之初,由于計算設備昂貴且稀缺,許多機構和組織會建立專門的計算中心,來集中提供高性能的計算資源和服務。随着計算機技術的不斷進步和普及,從最初的大型機時代到如今的雲計算、邊緣計算,計算中心的形式和功能也發生了變化。
相較于傳統算力中心,智算中心在硬件層面使用 GPU 替代 CPU,GPU 并行處理在面對大規模數據集運算時計算效率更高;另一方面,智算中心在軟件層面部署了 AI 框架,能将計算任務調配給不同的計算平台,從而實現最大的效率。
按應用角度來看,傳統計算中心更多地以存儲數據和提供互聯網服務爲主;而智算中心是專門給 AI 應用提供算力和數據存儲。
三年前,在推動産業數字化轉型的背景下,國内首個智算中心落地武漢,總投資約 4.6 億元,由于這類項目的建設過程中,通常會采用預制模塊化機房和整櫃交付的方式,所以實際建設周期很短,僅僅 6 個月就能夠建成。
當時一期的建設規模爲 100P FLOPS 的 AI 算力,由數千顆昇騰 AI 處理器組成,算力峰值性能相當于 5 萬台高性能 PC 機。這是個怎樣的概念呢?以天文探索的場景爲例,普通算力需要 169 天才能找到的特定星星,智算中心隻用不到 100 秒。
新眸統計 2021 以來建成的智算中心,從以地方主導的項目,如武漢、合肥、南京、京津冀等,到後來以商湯、阿裏雲、百度雲等大廠爲主開始投資運營,投入資金、算力規模整體呈現出明顯逐階上漲的趨勢。
比如 2022 年投入運營的 " 商湯科技人工智能智算中心 ",一期投入 56 億元,機櫃數量 5000 個,峰值訓練算力達到 3740P FLOPS;同年後來阿裏雲的張北智算中心上線,算力規模達到 12000P FLOPS,總投入 180 億元。
過去的一年裏,智算中心以量出圈。
具體表現在,一些四五線城市的智算中心拔地而起,比如甘肅慶陽、安徽宿州、山東棗莊等。相比大城市,這些城市土地資源豐富且價格低廉,渴望經濟轉型,并帶動周邊産業發展,因此對智算中心給予如稅收優惠和資金補貼等支持,并且審批流程更簡化,建設進度更快。
另一方面,智算中心需要實現算力的标準化、服務化,達到随用随取,類似于傳統公有雲服務。這意味着智算中心不僅僅是提供硬件資源,而是要轉型爲提供算力服務,因此很多企業,甚至是傳統企業都湧入了跨界做算力租賃的賽道。
同花順數據顯示,截至目前,算力租賃概念股已經多達 108 家。例如,主營彩票印刷業務的鴻博股份,是 A 股首家宣布跨界算力的上市公司;蓮花健康主業是做味精的,也采購了大量英偉達 GPU 開展算力租賃業務。
算力租賃,一個新的風口賽道
簡單來說,算力租賃就是當你在需要強大算力來完成某個項目時,不去自己購買昂貴的計算設備,而是去租用。服務商根據需求,搭建好所需的計算環境或系統,然後通過簽訂合同的方式,把這套計算能力租給你用。
客戶付的是租金,用完之後這套設備的所有權還是歸服務提供方,也不需要自己去維護或者買下這些設備。通常情況下,算力租賃有四種收費方式,按小時、按算力規模、按使用量和套餐計費。
具體來看,一般小型科創公司在做一些科研項目、短期的數據處理任務等,對算力的使用時間不确定,按小時計費就可以靈活控制成本。比如 SFCompute 公司提供按小時計費的服務,用戶可以根據自己的需求租用 H100 GPU,價格還很便宜。
按算力規模計費,通常涉及到服務器性能、GPU 數量等方面的評估,性能越好、效率越高,服務租金也更高。其次還有按照數據處理量、網絡流量的使用情況來計費的方式。針對一些大型企業或有特殊需求的客戶,提供商可以根據客戶的具體要求定制個性化的套餐。
爲什麽要租?
衆所周知,這兩年大模型訓練、微調、推理需求急劇增加,但關鍵在于,AI 應用在不同的開發階段,對算力的需求也不同。在開發周期中,需要大量的訓練算力;當模型開發完成上線後,就不再需要訓練算力而是推理算力。
當下算力租賃下的迫切需求,更多是源于模型訓練。至于需要多少,參考 GPT-4 訓練過程中 A100 卡數量達到萬張量級。考慮到服務器采購與租金成本,以及對算力的彈性需求,調試、維護成本,工程師研發時間成本,算力租賃成爲大多數大模型廠商的最佳選擇。
然而,在目前的算力租賃市場,競争格局呈現戶參與者衆多,但格局分散的特點。傳統的雲服務提供商,高端算力資源相對充足,但對外租賃的比例較少。具備 IDC 建設運營能力的企業,比如浪潮信息、中科曙光,以及跨行過來做算力的企業也越來越多。
另一個問題,國内在近幾年的算力投入下,與國外的差距不斷縮小,甚至單從規模上看,已經到了全球頂尖的水準,尤其是智算中心的儲備,也遠非供不應求的狀态。
那麽,在這種情況下,爲什麽還會有那麽多公司争相做租賃生意?
事實上,在供需方面,國内的算力規模雖然增長,但面向 AI、高性能計算的算力缺口一直存在。根據賽迪顧問的數據,2023 年國内智能算力需求達 123.6EFLOPS,但供給僅有 57.9EFLOPS,不到一半。
另一方面,算力需求未被雲計算大廠承接住。據業内人士指出,主要是因爲大模型訓練需高性能 GPU 集群,而大廠提供的多是單節點服務,缺乏節點間超高帶寬互聯基礎設施,無法滿足需求。
再加上建設新集群成本高,現有基礎設施又無法重複利用,并且大廠更關注在單節點可用性與可靠性,在高性能集群業務上并無優勢,要不然也不會有其他算力租賃公司的發展機會。
據東吳證券研報,算力租賃公司的毛利率約爲 40% 左右,淨利率約爲 20% 左右,最大的一個門檻就是資金——用來硬件采購、場地租賃、運維團隊組建;但技術門檻并不高,企業可以通過與技術供應商合作、引進專業人才等方式快速搭建和運營大規模的算力中心。
對于一些主業經營承壓、急于尋找新盈利增長點的企業來說,這個新賽道的吸引力巨大。
智算中心的背後邏輯
2023 年,蓮花控股成立蓮花紫星開展算力租賃業務。公告顯示,算力項目預計總投入約 2.9 億元。今年前 8 個月,蓮花紫星營業收入超過 3515 萬元,但淨利潤爲 -398.13 萬元。整體仍處于虧損,主要原因是設備的折舊及利息費用影響金額較大,人員成本支出占比較高,尚未發揮出規模效應。
短時間内賺不到錢,并不是說這不是一門好生意。通過梳理開展算力租賃的 A 股公司的财務數據發現,大部分的确都處在增收不增利的狀态,極少數實現盈利,但這些與 " 算力 " 概念相關的企業,最直接的收獲,可能就是短期内幾乎都出現過明顯上漲的股價。
如果要問算力租賃還有哪些不确定性,市場需求、政策變化、技術水平,以及交付和供應鏈、國産替代等等,都是重要的影響因素。不過對于當下涉足這個賽道的企業來說,更關鍵的問題是真正的 know how。
智算中心并非買了一堆 GPU 後就能靠租售躺賺。單就硬件部署,要解決的就包括:高性能的 AI 芯片、異構架構設計、高速低延遲的網絡、存儲系統、安全配置、監控管理、液冷裝置等等複雜步驟。
除此以外,訓練算力的租賃對象主要是大模型公司,那麽租賃公司,尤其是跨行的企業,怎麽獲取這些客戶資源,獲取穩定的客戶支持?這些問題在實操的過程中更難解決。截至目前,已經陸續有幾家上市公司放棄了算力租賃業務。
那回到開頭的話題,智算中心的 ROI 過低,什麽原因?
除了供給與需求的不匹配,地區間的經濟發展水平和産業結構差異,比如東部地區算力需求旺盛而供給相對不足之外,最早撇下的泡沫,是那些在缺乏充分市場調研的情況下,盲目投入智算中心建設的公司。
其次,結合算力租賃市場當下的窘境,智算中心的高效運行不僅依賴于高性能的硬件,還需要軟件層面的優化和協調。智算不僅僅是卡的問題,而是一個軟硬件協調的系統。當軟件能力不夠時,卡自身的發揮也會受限,導緻用卡效率不高。
智算中心不景氣,直接影響了算力租賃市場的低迷,反過來,算力資源無法得到有效利用,一些企業因缺乏應用場景而閑置算力資源,造成浪費,如此循環。
值得注意的是,囿于國内外技術差距以及芯片卡脖子,國産替代越發的被反複提及。但在這個過程中,最難解決的是應用生态的問題。
打個比方,如果國内芯片廠商在技術上采取封閉式模式,廠商通過高價設備銷售、輔助運營服務等方式實現了商業利益的最大化,雖然能夠集中力量辦大事,實現端到端的控制。
但封閉性也會導緻可用的開源軟件、商用軟件極少,用戶自有軟件的遷移适配成本極高,一些用戶的軟件無法适配,依此建立的智算中心隻能處于閑置狀态。