最近,國産第一部 3A 遊戲大作《黑神話:悟空》問世,引發了全網熱潮。遊戲中的主角 " 天命人 ",重走西遊之路,克服重重難關,向世界展現了中國文化的絕美與中國科技的自信。
而在現實當中,通往産業智能化的 AI 之路,同樣可以說是一條取經之路。廣大行業大模型開發者,也像 " 天命人 " 一樣需要跨越重重難關,克服九九八十一難。那麽,誰能來幫助他們攻克艱險,踏上靈山?
9 月 4 日,天翼雲在線上舉辦了息壤一體化智算服務平台大模型訓推服務能力升級發布會。面向行業大模型的真實開發需求與應用場景,天翼雲将 2023 年推出的智算服務平台進行了升級與革新,從而能夠爲大模型開發訓練、行業模型微調提供全生命周期的工具鏈。
經過一年的精進,天翼雲智算服務平台具有全流程覆蓋、全方位支持、适配國内行業大模型 AI 開發需求的特性。旨在簡化大模型從訓練到部署整個流程的息壤一體化智算服務平台,已經可以在 AI 取經之路上,助力每一位行業大模型開發者 " 天命人 "。
作爲雲服務國家隊,天翼雲所打造的息壤一體化智算服務平台訓推服務能力的躍遷,正在幫助中國 AI 開發者踏上智能化之路,盎然西行,直面天命。
就像西天取經之路一樣,大模型開發者與千行百業的 AI 進階之路,需要面臨重重艱險。從 AI 大模型訓練所需的數據準備,到模型訓練、推理部署,每一個環節對于行業大模型開發者來說都蘊藏着不小的挑戰。我們可以揀選具有代表性的幾個 "AI 取經難關 " 進行讨論:
1. 數據的黑風山。
AI 大模型訓練需要大量高質量數據,但對于行業大模型開發者來說,AI 所需的優質數據獲取難度其實是非常大的。在各行各業中,數據資源呈現出極其有限,且分布非常分散的特點。在收集到一定的數據之後,開發者還需要面對數據标注、數據清洗等一系列工作,開發成本極大。除此之外,行業大模型開發者還需要與行業内的專家緊密配合,從而将專業知識與 AI 算法進行緊密結合。這些行業數據相關的難題,構成了一座重重險阻的 " 黑風山 ",成爲阻擋開發者踏上 AI 取經路的第一道難關。
2. 訓練的獅駝嶺。
在化解數據難題之後,開發者還需要面對 AI 大模型訓練這個關鍵環節,而這個環節也是綜合成本開銷最大,且不确定性最高的一個。
對于行業大模型開發者來說,大模型訓練面臨着 AI 算力稀缺的核心問題,而在極高的 AI 算力成本之下,還需要應對傳統算子運行效率差、訓練集群故障多、故障定位與恢複時間漫長等重重困難。極高的訓練難度和訓練穩定性,成爲困擾大模型智能化發展的高山。
3. 模型的通天河。
對于衆多行業領域來說,進行獨立的大模型研發并非唯一選擇,如果能夠基于先進、成熟的大模型再結合自身行業所需進行 " 定制化 " 開發可取得事半功倍的效果。然而在這種需求下,行業模型開發者也面臨着業界優秀的模型與模型應用實踐難以獲取,模型的本地化水平低等問題。模型的應用部署,限制住了大模型在行業智能化的 " 最後一公裏 "。
能不能找到一個方法,連續攻克這重重難關,給予行業大模型開發者一站式的幫助?
面對這個問題,能夠一站式全流程覆蓋的智算服務平台成爲關鍵的答案。天翼雲對息壤一體化智算服務平台訓推服務能力的升級,就是希望瞄準真實的行業大模型開發,與開發者一起踏破 AI 取經的九九八十一難。
西天取經需要一步步走,一關關過。對行業大模型開發的賦能,也需要了解每個環節行業大模型開發者真正面對的挑戰,給出具有突破性的解決方案。
息壤一體化智算服務平台訓推服務能力升級的特點,就是洞察真實的行業 AI 大模型開發工作的訴求,針對每個環節都給出對應的解法。我們可以将天翼雲息壤一體化智算服務平台訓推服務能力的演進,分爲多個層面進行理解。看看天翼雲如何幫助 AI 取經路上的 " 天命人 ",一步步踏碎 AI 難關,走上陽關大道。
1. 筋鬥雲,翻越模型天塹。
智算服務平台對行業智能化的賦能,首先需要提供完善、優質的大模型。天翼雲在息壤一體化智算服務平台打造的大模型庫,擁有國内領先的豐富大模型。其中包含 Llama 系列、Qwen 系列、智譜系列、書生浦語系列等衆多主流大模型,涵蓋不同參數量級,供用戶靈活選擇。在原來 29 個模型的基礎之上,本次新增上線重量級商業閉源大語言模型 Baichuan4、主流開源大語言模型書生浦語 2 系列的 InternLM2-Chat-7B 和 InternLM2-Chat-20B、圖文多模态大模型Qwen-VL-Chat,以及 Qwen2 系列、Qwen1.5 系列和 Llama3 系列的諸多模型。在這樣的大模型陣容下,各行業可以輕松調用到符合自身需求的大模型,快速實現大模型到行業場景的孵化。
2. 七十二變,化身數據萬千。
在困擾行業大模型開發者的數據工作中,息壤一體化智算服務平台内置了專業的大模型數據集。中國電信在數據發展上開展的算數融合工程,首批推出超 120 萬對文本和語義識别類通用大模型訓練所必需的問答對數據,主要面向客服問答場景,解決了大量中小型企業訓練數據不足的難題。
尤其需要注意的是,息壤一體化智算服務平台内置的數據集,在數據來源上經過了嚴格的審核,可以确保數據的準确性與真實性,并且通過多維度的數據驗證,确保了數據集的完整性與一緻性。行業大模型開發者可以獲得高質量的數據支持,并且在該平台中直接将數據應用到訓練、推理任務中。化身千萬的數據集,就像齊天大聖的七十二變,可以帶來堪稱神奇的大模型訓練效果。
3. 金箍棒,打出最強訓練。
面對開發者在大模型訓練中的系列痛點, 天翼雲在北京、上海建成兩個萬卡規模的公共智算中心,并在其資源池上搭載了息壤一體化智算服務平台,使其成爲國内首個單集群萬卡國産化全功能預訓練雲服務平台,可支持目前業内最大參數規模開源單體稠密模型 Llama3 405B 在内的大模型訓練。訓練測試結果顯示,Llama3 405B 模型集群有效計算效率 MFU 在國産化萬卡規模情況下達到 43%,達到業界領先水平。
息壤一體化智算服務平台具有全鏈路故障感知和恢複、全鏈路日志監控和斷點續訓等核心技術,能夠實現 1 分鍾檢測、5 分鍾定位、1 分鍾内告警,本次平台升級還增加了網絡 I/O 監控,爲訓練穩定性添加了保障。在斷點續訓方面,在 Llama2-70b 模型萬卡規模測試場景下,在主機故障、NPU 卡故障、進程退出故障、網絡超時故障四大類具體場景下斷點續訓測試平均秒級故障檢測,分鍾級故障定位和自動化處理,分鍾級訓練恢複,其能力達到行業前沿水平。此次平台升級還新增了對芯片故障的優雅容錯,能夠做到無需重調度直接修複節點故障。目前,智算服務平台已經應用于大量用戶的訓推場景,如深圳市智算中心、人工智能實驗室等。
4、火眼金睛,勘破場景應用。
面對不同行業、不同企業的多樣化大模型應用場景,息壤一體化智算服務平台做了深度的洞察,就像點亮了 " 火眼金睛 ",看到不同行業與企業對大模型的真實期待。
無論是具備深厚專業背景的行業客戶,還是對大模型推訓能力有嚴格要求的大模型廠商,都可以通過息壤一體化智算服務平台獲得準确的支持,可通過直接調用預置的大模型服務,使得開發者能夠輕松地将先進的 AI 技術集成到自己的業務中。
如今,AI 取經之路上行者不絕,息壤一體化智算服務平台訓推服務能力也爲諸多 " 天命人 " 提供了深層次的幫助。
比如說,中醫與大模型的結合,是近段時期的産業熱點話題。中國中醫科學院中醫藥信息研究所與天翼雲合作,共同探索 AI+ 中醫藥應用創新。在中醫垂類大模型的微調、應用發布平台等環節中,天翼雲提供的息壤一體化智算服務平台爲中醫藥信息研究所提供了多樣化的算法支持與模型優化工具,幫助大模型能夠更好地挖掘中醫藥數據的潛在價值,實現中醫瑰寶與 AI 技術的融合發展。
這些真實的大模型落地場景,證明了息壤一體化智算服務平台爲行業智能化帶來的有力推助。作爲國家雲的天翼雲,正在通過智算服務踏碎 AI 難關,助力行業大模型開發順利西行。
讓每一位 "AI 天命人 " 都找到契合的産業助力,離不開圍繞智算平台的生态建設。基于平台能力,天翼雲聯合夥伴上線了魔樂(Modelers.cn)開發者社區。
魔樂開發者社區真實貼合了中國的産業智能化環境,以及中國 AI 開發者的需求。就像《黑神話:悟空》展示的中國文化底蘊那樣,天翼雲承載國家雲之責,不斷加速構建滿足 AI 産業發展所需的智算社區。具體而言,社區具有三大特色:
1. 極緻易用的工具鏈。
魔樂開發者社區能夠提供高易用性的 API,快速實現開發者和研究人員的創意,并且支持千款大模型一鍵式離線複現,使能開發者快速搭建開發環境,構建 AI 應用。
2. 中文優質 AI 資源。
魔樂開發者社區已經擁有超過 1000 個大模型,構建了 5 大專區,能夠爲開發者提供通義千問、chatGLM、百川、書生系列、星辰 Telechat 等主流中文大模型資源。
3. 國産化算力使能。
面對國産化 AI 算力需求的發展,魔樂開發者社區還構建了體驗空間,提供限時免費的國産化算力資源,支持 MindSpeed、Accelerator 等加速庫,應對大模型時代分布式訓練的挑戰,顯著提升大模型訓練效率。
面向着數據、訓練、推理的重重 AI 難關,天翼雲選擇步步前行,關關踏破。
經過不斷的精進升級,天翼雲智算服務平台已經在技術能力、資源積累、生态構建等方面展露出了極高的産業化水準。伴随各個領域的行業大模型開發者對智算服務平台的深度應用,産業智能化的路途正在變得愈發順遂,前途更加光明。
踏智能路,選國家雲。随着天翼雲的息壤一體化智算服務平台訓推服務能力的不斷升級完善,會讓每一位行業大模型開發者在 AI 世界中,都成爲自己故事中的 " 天命人 "。