2017 年,Amazon SageMaker 正式推出,也是業内第一個基于雲的機器學習開發平台,但雲上平台起初并沒有成爲行業公認的優選。
彼時的人工智能産業存在大量小模型,很多客戶并沒有強烈的上雲意願,數據量不大,模型也不複雜,隻需幾個人的小團隊就能完成算法的設計,算力需求完全可以用裸金屬服務器滿足。
換句話說,大家更想要的是 GPU 卡,而不是一個多層架構設計的雲平台。大模型改變了一切。
天翼雲科技有限公司總經理胡志強表示,大模型不斷擴大的參數規模和快速叠代的技術路線跨越式地提升了模型的能力, 但是同時也爲大模型的訓練和應用帶來了很多挑戰。比如算力利用率的瓶頸日益凸顯、算力成本壓力進一步增大、模型的構建難度不斷提升,模型的行業落地更加複雜。
以天翼雲爲例,爲順應大模型時代對于雲服務商的新要求,打造了智算數據中心 AIDC、雲智超一體化基礎設施平台 " 雲骁 "、一站式智算服務平台 " 慧聚 " 等,并在此基礎上構建國雲大模型生态,形成雲智一體的智算服務體系。
雲上機器學習平台已經成爲雲計算大廠競相布局的關鍵,天翼雲最近推出的 " 慧聚 ",也反映出行業的大趨勢。
大模型,爲什麽必須上雲
相比于人工智能的小模型階段,大模型數據量愈發龐大,需要一個包含算法工程師,數據工程師等多種角色的團隊,在團隊中,對于數據資産、算力資産、模型資産等的協作管理更加複雜,在訓練中需要控制的變量更多,僅靠堆卡無法解決這些問題,大模型平台是順應行業形勢的選擇。
" 過去行業都在讨論,大模型平台是不是真的有意義。" 天翼雲科技有限公司智能邊緣事業部大數據及 AI 産品線總監曹莉娜對钛媒體 App 表示,機器學習平台具備預置模型,在沒有大模型的時候,雖然有預置的框架和參數,但是預制模型的通用性非常低,隻能應用于類似的場景。
目前大模型大多基于 Transformer 架構,大家都能精調預置大模型,産生不同的效果,超大規模預訓練模型成爲一項系統工程,平台的規模化的功能多樣化,使得預訓練模型的基準水平大幅提升,開發者和企業都可以在雲上找到自己所需模型,比拼的是對行業和場景的理解。
需要指出的是,雲上機器學習平台的複雜度并沒有消失,而是大模型需求一方将難題讓渡給雲廠商,由雲廠商來解決從訓練到應用之間的關鍵問題。
大模型改變了人工智能産業遊戲規則,也改變了雲廠商的競争維度,天翼雲總結出大模型訓練和應用層面的挑戰,首先是模型訓練成本高,大規模訓練集群的構建涉及到多個高度複雜、需要精密協同的軟硬件工程技術棧,建設難度大。
其次是訓練、微調等工作複雜,涉及到數據處理、模型訓練、模型壓縮、評測、部署等諸多環節,技術門檻高。
最後是大模型輸入數據量龐大,而輸出則具備一定的不可控性,因此内容安全、數據安全、系統安全的保障難度大。
" 雲計算不僅僅是資源,如果客戶直接買幾台雲主機,自己想要去做大模型,是做不起來的,機器資源、網絡連接、調度方法等,如何更能夠匹配大模型需求,客戶很難實現最優解,天翼雲希望封裝底層能力提供給客戶。" 曹莉娜說。
而如果僅提供 IaaS 層資源,隻有一些技術水平比較高的客戶能夠使用,天翼雲将大模型訓練等經驗沉澱到 " 慧聚 " 雲平台,當大模型廠商再去訓練的時候就能少踩坑,并且将整個鏈條所需的技術輸出,例如預置鏡像、插件、框架等适配工作。
解決大模型的指數級問題
大模型是典型的 " 量變引起質變 ",與之相應地,規模帶來的複雜度也呈指數級增長,當大模型參數等指标超過一定的阈值,慧聚等大模型雲平台要解決的問題也指數級上升。
據了解," 慧聚 " 的原型産品早就在天翼雲内部開發,而後幾經演變,綜合來看,慧聚能夠将大模型開發訓練過程中的關鍵流程、複雜技術和實踐經驗進行總結和抽取, 構建出一站式全鏈路的大模型生産應用的流水線。
其核心價值在于大幅降低大模型訓練、微調、部署、推理的門檻,讓客戶能夠更專注于模型升級和應用落地。
曹莉娜提到,天翼雲接觸到的客戶需求多種多樣,既有希望直接買 GPU 卡的客戶,也有點名要雲上機器學習平台的客戶,甚至有一些客戶有自己的機器學習平台。很多客戶來天翼雲測試之後,發現無論是買卡還是用自己平台,不如整體采用慧聚平台。
如果給大模型廠商算一筆賬,一台 8 卡 A100 GPU 服務器價格要一百多萬元人民币,128 台服務器的集群就要花費超 1.28 億元,這還不算機房租賃、交換機等價格,很多廠商還要投入大量人員去發揮每一塊卡的潛力。
以某大模型初創企業爲例,雖然作爲大模型廠商,但他們有相當比例的工程師在做基礎設施層面的工作,一個訓練周期爲三個月的千卡集群,成本壓力非常大,如果能實現加速效率提高百分之三十,就能省下一筆海量的成本支出。
從産品來看,慧聚包含四大平台,能夠支持數據準備、模型開發、任務管理、模型優化、服務部署和模型服務的全鏈流程。同時能對 AI 大模型,三個關鍵要素進行全面管理:算力,算法,數據。四大平台實現了将數據管好,将算法轉化爲模型,将算力利用好的目标。
不同雲廠商都已有或準備類似的産品,大家最關注的兩個環節,一是如何縮短模型訓練時間(即一個飛輪叠代時間),二是如何保證穩定訓練。
曹莉娜介紹,爲了應對如上問題,天翼雲慧聚構建兩大技術棧,算力加速與算力調度。其中,算力加速包含數據加速、網絡加速、算子加速、編譯加速等技術,實現對框架針對性優化,使得模型訓練推理效率更高,在框架、模型等鏡像拉取的時候進行鏡像加速,數據傳輸層通過預加載 步存儲等技術加快數據集存取,實現數據加速;在芯片層實現算子加速等方式。
" 因爲大模型的訓練是通過模型的切片,數據的切片,将模型、框架和數據進行整合,形成任務實例,通過分布式訓練方式分配到各 GPU 上,我們構建的算力調度層核心構建了合理靈活的任務的分配和調度策略,能夠保障訓練任務能夠準确到達每個所分配 GPU,實現超大規模集群内多個 GPU 同時承接相應的訓練任務,提升對 GPU 的利用率 ",她說。
此外,在算力調度層面,慧聚整個調度層對于底層的 GPU 和 IB、NVlink 等網絡進行感知,實時獲取 GPU 和網絡的狀态,爲任務的分配和調度奠定基礎,起到呈上啓下的核心作用。
即便遇到底層故障,天翼雲慧聚構建的調度層也能實現快速重新調度、斷點續訓,在任務中斷過程中實現快速進行恢複,保障訓練任務的不中斷。
雲計算本質是一門生态生意,大模型生态打破了産業的原有分工,從底層芯片到 AI 開發者社區,新的大模型雲生态正在形成。
(本文首發钛媒體 APP 作者|張帥,歡迎添加作者 mr3right 交流)