如果我們把歐亞大陸看作一個整體,會發現中國是一個有幾座山脈的超大半島,橫斷山脈與天山、陰山、昆侖山、南嶺、大興安嶺,一橫五縱的山脊,描繪出了中華大地的輪廓。
一方水土的休養生息,需要山脈作爲屏障;一項科技的崛起與發展,需要基礎設施作爲支撐。
伴随着 " 人工智能 +" 行動的開展,AI 技術在中國迎來了新的發展高峰。但如果沒有基礎設施層面 AI 算力的有效供給,AI 算法的發展,企業對 AI 應用都将變成無本之木,無源之水。
發展 AI 技術,首先需要構築算力山脈。通過智能算力,把 AI 産業切實保護起來,支撐起來。尤其需要注意的是,這種構築并不是簡單的算力供給,而是需要切實應對企業在智算運用過程中的挑戰,提升算力效率,降低算力門檻。
中國 AI 的算力山脈,究竟如何勾勒?
聯想認爲,異構智算就是答案。
4 月 18 日,第十屆聯想創新科技大會 Tech World 在上海舉行。期間,聯想提出融合了公共大模型、個人級大模型和企業大模型的混合式人工智能是未來大勢所趨。這個過程中,AI 大模型将在各個行業深入落地,由此帶來了智能算力的指數級增長,對中國 AI 基礎設施提出了全新要求。
爲了幫助千行百業應對混合式人工智能帶來的基礎設施之變,聯想 ISG 提出了一橫五縱的發展戰略。
一橫五縱背後,是聯想希望用平台打通,以産品組合的方式,打造更可滿足當下 AI 需求的基礎設施集群,畫出屬于中國 AI 的山脊。
AI 時代
智算就是山脊
如果一片土地沒有山脊保護,就很容易受到風沙與冷空氣的侵蝕,從而各種自然災害頻發。中華文明能夠延綿不絕,也有賴于幾條雄偉山脊的護佑。
在 AI 領域,如果說算法是土壤,應用是莊稼,那麽算力就是保護這片土地的山脊,隻有山脊夠高夠強,土地才有蓬勃生機。
2023 年,中國出現了 " 百模大戰 " 的盛況,湧現出了龐大的 AI 應用場景與相應的智算需求。
根據《2023 — 2024 年中國人工智能計算力發展評估報告》,2023 年中國 AI 算力市場規模将達到 664 億元,同比增長 82.5%。預計到 2030 年,人工智能驅動的全球算力将增長 500 倍。
過快的 AI 算力需求擴張,帶來了一系列相關問題。如果說 AI 算力是整個 AI 産業生态的山巒屏障,那麽今天的情況就是 AI 算法與應用發展過快,社會各界對 AI 期望極大。在基礎設施層,我們需要快速去填補 AI 算力的空白,爲中國 AI 築起算力高山。
想要實現這個目标,需要破解幾項關鍵的挑戰。中國 AI 算力當前的核心難點在于:
1. 算力供需失衡。AI 算力處在供給遠不能滿足需求的情況,且将長期保持。這就需要我們珍惜已有且面向未來的所有 AI 算力,最大化滿足多元智算需求。
2. 算力應用卡點多。企業應用 AI 算力,需要依賴于多層級的智能化基礎設施,端、邊、雲、網等條件缺一不可,需要進行全方位适配 AI 算力的基礎設施更新。在企業智算實踐中,面臨着諸如針對場景匹配算法,提升 AI 算力利用率等問題。能力多樣、切中要害的異構智算平台建設迫在眉睫。
3. 算力生态不完善。智算基礎設施的推廣和普及,需要依賴軟硬件多方面的适配,以及行業開發者的配合,這就導緻智算生态的建設至關重要。
面對這些問題與挑戰,聯想 ISG 回歸基礎設施更新的基本邏輯,爲中國 AI 發展畫下了一橫五縱的山脊。
一橫五縱
畫出山川連綿
想築造 AI 時代的智算山脊,需要先有一張藍圖。
在下筆畫這張藍圖之前,需要先思考兩個問題。橫向來看,AI 時代多元計算成爲必然趨勢,需要一個平台承載廣泛且多元的算力需求。縱向來看,AI 大模型的訓推效果取決于諸多條件,存、算、網等基礎設施缺一不可。
橫可承載智算,縱有産品周全,這樣的 " 畫意 " 驅動着聯想落筆畫出智算山川。在聯想的 "AI for All" 戰略下,聯想 ISG 推動了基礎設施領域全面适配 AI 的深入變化,以 " 端 - 邊 - 雲 - 網 - 智 " 新 IT 架構打造混合式 AI 基礎設施。
(聯想集團副總裁、中國基礎設施業務群總經理陳振寬)
聯想集團副總裁、中國基礎設施業務群總經理陳振寬認爲," 在人工智能 1.0 時代,基于全球智慧和本地創新,聯想打造了全面的基礎設施産品組合,包括計算、存儲、網絡、邊緣和超融合,并在通用計算、科學計算和 AI 計算等不同算力領域獲得大量的最佳實踐,幫助千行百業的客戶取得成功 "。陳振寬表示," 如今大模型開啓的 AI 2.0 時代已經邁着大步朝我們走來,我們需要重塑過去積累的技術,來全面升級聯想基礎設施 "。
分析聯想在 AI 基礎設施層面的策略與行動,可以将其歸納爲 " 一橫五縱 "。
" 一橫 ",即異構智算平台。
通過實現對通用計算集群、科學計算集群和 AI 算力集群進行統一管理,并對多種 CPU、GPU、DPU 等處理器進行異構管理調度,聯想打造了更加符合 AI 計算需求的異構算力底座。
在 AI 基礎設施領域,聯想聚焦三大領域的創新。首先是爲用戶匹配經過驗證優化的最佳算力。第二是賦能用戶充分利用算力,提升計算效率。第三則是以先進的液冷技術幫助用戶節能增效且突破芯片散熱的瓶頸。
聯想萬全異構智算平台,彙集了這三大能力,爲 AI 2.0 時代帶來了五大技術創新,其中包括:
1. 用戶智能匹配算力的算力匹配魔方。基于海量的硬件評測和 AI 算子算法集成工作,聯想構建了 AI 場景與算法與集群硬件三者匹配關系的算力魔方知識庫,來标識 AI 場景、算法、集群配置這三者的匹配關系。用戶隻需輸入場景和數據,算力魔方即可自動加載最優算法,并調度最佳集群配置。
2. 逼近 GPU 算力極限的 GPU 内核态虛拟化。聯想研究院開發了在 GPU 驅動層的内核态虛拟化算法,新算法可以将虛拟化造成的 GPU 算力損耗降到 5% 以下,極緻情況可以降到 1% 以下,大幅提升 GPU 利用率。
3. 提升網絡通信效率的聯想集合通信算法庫。可實現對多類型網絡拓撲的實時感知,并以先進算法使數據在拓撲中以最佳路徑進行傳輸。以千卡規模集群爲例,采用集成了聯想集合通信庫的聯想異構智算平台做管理調度,可使網絡通信效率提升超 10%,并且集群規模越大,效果越顯著。
4. 減少 AI 訓練中斷時間的 AI 高效斷點續訓技術。聯想異構智算平台對大量的 AI 訓練故障進行了特征采樣,開發了預測 AI 訓練故障的 AI 模型,實現 " 用 AI 來預測 AI"。在斷點前提前優化備份,由此能将斷點續訓恢複時間縮減到分鍾級,大幅提升訓練效率,以千卡集群爲例,每月可節約上百萬元算力費用支出,讓寶貴的 AI 算力持續可用。
5.AI 與 HPC 集群超級調度器。針對混合集群做資源共享需求,聯想 AI 與 HPC 超級調度器架構于 AI 和 HPC 調度之上,能夠切換 AI 和 HPC 的調度,從而滿足科學計算等場景的 HPC 與 AI 計算間的調度需求。它可以切換 " 語言 " 分别指揮 AI 和 HPC 調度器,可跨集群全局動态管理和調度算力資源,一小時内自動完成跨集群資源調度和共享。
在五大技術創新的合力下,異構智算平台形成了一個能高度自動化完成 AI 全流程開發的平台。
從用戶視角看,向平台輸入場景需求和數據後,即可将計算過程交給平台自動完成,平台就像一個計算魔盒,能夠自動優化數據和模型,自動匹配和調度算力,自動對計算的全過程進行監控,直到最終輸出模型或是推理服務。
以異構智算平台爲基礎,企業多樣化、實踐化的 AI 算力需求都可以得到妥善滿足,并且能夠獲得高可用、高效率、高能效的 AI 計算體驗。
AI 算力需要與軟硬件基礎進行配合,才能得到最大化的價值釋放。因此,聯想打造了 " 五縱 ",即服務器,存儲,數據網絡,軟件及超融合以及邊緣基礎設施産品。
在基礎設施市場中,聯想多樣化的産品取得了顯著優勢。根據 IDC 發布的《2023 第四季度中國 x86 服務器市場追蹤報告》顯示,聯想環比增速居中國 x86 服務器市場第一,領先市場整體增速 80 個百分點。而在去年 11 月舉辦的第五屆中國超級算力大會(ChinaSC 2023)公布的最新一期 " 中國高性能計算機 TOP100 排行榜 " 中,聯想上榜 43 套,獲得年度數量總份額冠軍。這也是聯想第九次問鼎并蟬聯中國高性能計算 TOP100 數量份額第一。
通過五大産品線的并行與配合,可以滿足中國 AI 基礎設施廣泛而多元的叠代需求。
以一橫五縱的山脊爲基礎,智算生态可以生生不息,智算應用可以曠野花開。
山青水綠
滋養生态萬全
有了山脊護佑,還需要在山脊間的平原播種萬物,培育生态。爲了讓一橫五縱的智算山脊真正發揮價值,聯想還需要爲智算生态添加動力。
在異構智算的大潮下,聯想基礎設施業務群成功跻身人工智能基礎設施領域全球三甲。與此同時,聯想基礎設施業務群正在中國市場開啓一場複興之旅。去年,在中國市場實現了銷售額 21% 的大幅增長,并且赢回了一系列重要客戶。在進一步挖掘智算潛力,激活市場空間,聯想需要生态的支持,也需要爲生态夥伴創造發展機遇。
爲此,聯想希望在智算領域搭建一個萬全生态。所謂萬全,是指生态包羅萬法,可以保用戶算力以周全,保用戶的 AI 基礎設施投資回報以周全。
爲了搭建這樣的生态,聯想希望在生态中貢獻硬件能力和異構智算平台的集群管理調度能力,并且要實現對算力生态的包容,即硬件會兼容 xPU 生态硬件,異構智算平台會集成 xPU 底層軟件,并且以 extended UI 的方式對接集成 AI 工具鏈生态,讓各類智算需求都能在開放的平台生态中得到滿足。
在 Tech World 的 " 異構智算 多元生态 " 聯想智算産業生态創新論壇上。聯想集團與中國智能計算産業聯盟共同發起并成立異構智算産業生态聯盟,聯合産業頭部生态夥伴共建聯想萬全生态。據介紹,異構智算産業生态聯盟框架由 AI 芯片層、AI 設備與系統層和 AI 平台與應用層,能夠實現從 IaaS 平台、AI 訓練與推理到行業場景解決方案的全覆蓋。
目前,異構智算産業生态聯盟首批共計 13 家成員單位已加盟。生态聯盟成立後,将陸續發布異構智算最新成果,計劃推動《國際人工智能算力性能排行榜—— AIPerf500》評選,共創及發布《異構智算白皮書》以及《2024 國家行業發展報告(智能計算方向)》等内容,引導中國智算産業健康發展。
面向未來,萬全異構智算生态将爲處于算力選擇期的中國用戶提供豐富的一站式的方案來适應多樣化的 AI 應用場景,并且将通過生态全鏈條的緊密合作調優,不斷提升算力效率,破解 AI 帶來的算力荒與能耗荒。
異構智算生态的蓬勃發展下,我們已經可以在一橫五縱的智算山脊中,看到中國智算生态的盎然生機。
山澤浩瀚
以振智能中國
在技術與産品的山脊下,在智算生态的勃發中,聯想的智算能力正在一個個産品,一個個案例中生長出來。
在産品方面,不久之前聯想剛剛成功交付了可搭載國産 AI 算力芯片的聯想問天 WA5480 G3 服務器。其具備多芯算力、靈活拓撲、安全可靠三大特色,能夠滿足自主化與 AI 算力需求的雙重結合。
在應用方面,聯想已經成爲大量領軍企業的智能化合作夥伴,異構智算的價值釋放到了千行百業當中。在吉利汽車、紫金雲、阿裏雲等核心用戶的應用案例中,都可以見到聯想一橫五縱産品帶來的驚喜。
一橫五縱戰略的核心落腳點,在于 " 實 "。
歸根結底,将 AI 大模型從一種技術上的可行性,變爲千行百業生産場景中的可用性,需要一系列先決條件的搭建和滿足。異構計算、算法匹配、能耗問題、生态合作需求等問題,都擺在從 AI 大模型到新質生産力之間。二者之間,什麽都不做就是萬水千山,有心爲之就是通衢大道。
聯想 ISG 打造的一橫五縱,就是這樣一條通衢。其從現實場景,真實行業的智算需求出發,有問題就解決問題,需要産品就打造産品,需要生态就建設生态。最終讓 AI 的山澤浩瀚,借由智算山脊的地勢,流入千行百業的田野。
新質生産力,由此而盤活;中國産業智能化的腳步,由此而加速。
在智算山脊之下,中國 AI 正草長莺飛,蓬勃萬全。