今天,華爲在大模型領域狠狠秀了一把「肌肉」。
7 月 7 日,2023 華爲開發者大會(HDC 2023)開幕。下午兩個多小時的主題演講裏,華爲雲首次詳細披露了盤古大模型的進展,不僅發布面向行業的盤古大模型 3.0,還詳細介紹了華爲發展大模型的基礎技術能力。
盤古大模型 3.0 包括「5+N+X」三層架構,三層分别指 L0 層的 5 個基礎大模型、L1 層的 N 個行業通用大模型、以及 L2 層可以讓用戶自主訓練的更多細化場景模型。其采用完全的分層解耦設計,企業用戶可以基于自己的業務需要選擇适合的大模型開發、升級或精調,從而适配千行百業多變的需求。
華爲輪值董事長胡厚崑在日前的 WAIC 大會上表示,華爲發展大模型的核心是關注算力和應用。一方面是深耕算力,打造強有力的算力底座,來支撐中國的人工智能事業的發展。另一方面就是結合大模型,從通用大模型到行業大模型的研究創新,來真正讓人工智能服務好千行百業,服務好科學研究。
華爲是國内最早布局大模型的雲服務商之一,早在 2021 年就已經發布了盤古大模型。在發展大模型的道路上,華爲從最底層構建了以鲲鵬和昇騰爲基礎的 AI 算力雲平台,以及異構計算架構 CANN、全場景 AI 框架昇思 MindSpore,AI 開發生産線 ModelArts 等技術能力。
除了大模型和算力底座,會上,華爲雲還重點介紹了盤古大模型與具體行業結合的典型案例,涉及的行業包括政務、氣象、鐵路、制造、金融,以及多個升級、重塑華爲雲旗下軟件産品和服務的應用案例。
不論是基礎的技術能力,AI + 雲的産品服務體系,還是落到具體行業的應用案例,華爲雲均展示出了高度成熟、成體系化的業務能力,這着實給行業帶來驚喜。在大家還在争論誰是中國的 OpenAI 時,華爲雲已經開辟出了一條相當成熟的大模型發展道路。
華爲在用自己的實踐證明,大模型很重要,但更重要的是用大模型解決行業和産品的痛點問題,做出能讓企業和用戶買單的産品和服務,爲千行百業真正創造價值。
盤古大模型 3.0:分層解耦架構
解耦,是今天發布的盤古大模型 3.0 的關鍵詞。這也是過去幾個月來,實際調用大模型的行業客戶一個普遍的訴求。
一位頭部 SaaS 廠商在發布自己的大模型升級應用時表示,「我們不自研大模型,而是在不同的業務場景中,哪個大模型擅長什麽事情,就接那個模型。」爲了可以在不同的大模型之間切換,「我們自身産品架構上要做到與底層大模型無關,或者說松耦合。」
「盤古大模型的解耦設計,就是爲行業着想」,在華爲開發者大會上,華爲常務董事、華爲雲 CEO 張平安給出了盤古大模型的差異化路線。其核心是把盤古大模型的的各種層和能力解耦,讓行業用戶根據自己的需求去開發。
具體來說,盤古大模型 3.0 是一個面向行業的大模型系列,包括「5+N+X」三層架構:
「5」代表 L0 層的五個基礎大模型:包括自然語言、視覺、多模态、預測、科學計算大模型,提供滿足行業場景中的多種技能需求。
盤古 3.0 爲客戶提供 100 億參數、380 億參數、710 參數和 1000 億參數的系列化基礎大模型,匹配客戶不同場景、不同時延、不同響應速度的行業多樣化需求。同時提供全新能力集,包括 NLP 大模型的知識問答、文案生成、代碼生成,以及多模态大模型的圖像生成、圖像理解等能力,這些技能都可以供客戶和夥伴企業直接調用。無論多大參數規模的大模型,盤古提供一緻的能力集。
「5+N+X」三層架構中的「N」,代表 L1 層的 N 個行業大模型。行業大模型的提供方式有兩種:一方面,華爲雲可以提供使用行業公開數據訓練的行業通用大模型,包括政務,金融,制造,礦山,氣象等大模型;另一方面,可以基于行業客戶的自有數據,在盤古大模型的 L0 和 L1 層上,爲客戶訓練自己的專有大模型。
張平安表示:「盤古一出生就是爲行業服務,提供了多種大模型的部署、開發和推理形态,可以像華爲生成盤古大模型一樣,生成自己的行業大模型,隻需要輸入自己的私有數據。」并且,訓練數據也和大模型解耦。
「5+N+X」中的 X,則代表 L2 層爲客戶提供了更多細化場景的模型,更加專注于政務熱線、網點助手、先導藥物篩選、傳送帶異物檢測、台風路徑預測等具體行業應用或特定業務場景,爲客戶提供「開箱即用」的模型服務。
通過「5+N+X」的這三層大模型,華爲雲構建了自己的大模型底座。
在昨天的世界人工智能大會上,華爲輪值董事長胡厚崑形象地闡述道:「最基層對标的是通用大模型,我們叫做基礎大模型。這層我們形象的叫做讀萬卷書,就是要做好海量的基礎知識的學習。這一層之上還打造了行業模型和場景模型,叫做行萬裏路。從讀萬卷書到行萬裏路還有很多的挑戰要克服,很關鍵的一點就是要把各行各業的知識與大模型進行充分的匹配和融合,華爲正在和各個行業的夥伴一起進行努力。」
此外,大模型的創新不僅僅是模型自身的創新,更依賴于 AI 的各項根技術創新。會上,華爲諾亞方舟實驗室主任姚駿介紹了盤古大模型的技術底座。
華爲在最底層構建了以鲲鵬和昇騰爲基礎的 AI 算力雲平台,以及異構計算架構 CANN、全場景 AI 框架昇思 MindSpore,AI 開發生産線 ModelArts 等,爲大模型開發和運行提供分布式并行加速,算子和編譯優化、集群級通信優化等關鍵能力。基于華爲的 AI 根技術,大模型訓練效能可以調優到業界主流 GPU 的 1.1 倍。
算力是訓練大模型的基礎。在本次大會上,張平安宣布單集群 2000P Flops 算力的昇騰 AI 雲服務在華爲雲的烏蘭察布和貴安 AI 算力中心同時上線。昇騰 AI 雲服務除了支持華爲全場景 AI 框架昇思 MindSpore 外,還支持 Pytorch、Tensorflow 等主流 AI 框架。
同時,這些框架中 90% 的算子,都可以通過華爲端到端的遷移工具平滑遷移到昇騰平台。例如,美圖僅用 30 天就将 70 個模型遷移到了昇騰,同時華爲雲和美圖團隊一起進行了 30 多個算子的優化以及流程的并行加速,AI 性能較原有方案提升了 30%。
此外,在大模型訓練過程中經常會遇到 GPU 故障,研發人員不得不經常重啓訓練,時間長,代價大。昇騰 AI 雲服務可以提供更長穩的 AI 算力服務,千卡訓練 30 天長穩率達到 90%,斷點恢複時長不超過 10 分鍾。
賦能千行百業
任正非此前曾表示,「人工智能軟件平台公司對人類社會的直接貢獻可能不到 2%,98% 都是對工業社會、農業社會的促進。但是應用平台不是我們的選項,我們會做 AI 的底層算力平台。」
讓大模型走進千行百業,已經成爲華爲發展大模型的工作重心。會上,華爲雲介紹了盤古大模型在政務、鐵路、氣象、金融等七個領域的應用案例。
政務
在政務領域,華爲雲攜手深圳市福田區政務服務數據管理局,上線了基于盤古政務大模型的福田政務智慧助手小福,能夠精準理解民衆咨詢意圖,改變傳統的一網通辦模式。通過對超過 20 萬條政務數據進行精調,包括 12345 熱線、政策文件、政務百科等,政務助手掌握了豐富的法律法規、辦事流程等行業知識。
華爲雲介紹,盤古政務大模型的核心,是認知能力。讓城市公共系統從看得見到看得懂,完成從感知,到認知、處置的閉環。并根據不同場景,針對不同場景,提供問答、文案生成、視頻感知、多模态理解等不同的能力。
華爲雲介紹了兩個典型場景:首先是一個咨詢場景,企業用戶向政務助手咨詢相關的投資扶持政策,政務助手可以介紹相關的法規政策,并爲咨詢者提供适當的建議;第二個場景,如上圖所示,是一個基于對話和多模态能力的政務處理場景,工作人員可以根據攝像頭拍攝的圖片,智能分析圖片中的違規情況。
鐵路
在鐵路領域,華爲展示了貨車檢測助手的應用案例。
傳統列檢員每天要檢測數百萬張列車圖片,檢測鐵路網絡運行的貨車是否存在故障問題。引入盤古大模型後,可以精準識别現網運行的 67 種貨車、430 多種故障,無故障圖片篩除率高達 95%。換言之,列檢員隻需要檢測過去 1/20 的列車圖片,相當于提高了 20 倍的工作效率。
煤礦
在煤礦領域,盤古礦山大模型已經在全國 8 個礦井規模使用,一個大模型可以覆蓋煤礦的采、掘、機、運、通、洗選等業務流程下的 1000 多個細分場景,讓更多的煤礦工人能夠在地面上作業,不僅能讓煤礦工人的工作環境更加舒适,而且可以極大地減少安全事故。
氣象
氣象領域是華爲雲發布會上介紹的重點,就在幾天前,盤古氣象大模型的研究成果發表在國外頂級期刊《Nature》,被審稿人評價爲:讓我們重新審視氣象預測的未來。
原來預測一個台風未來 10 天的路徑,需要在 3000 台服務器的高性能計算機集群上花費 5 小時進行仿真。現在基于預訓練的盤古氣象大模型,通過 AI 推理的方式,研究者隻需單台服務器上單卡配置,10 秒内就可以獲得更精确的預測結果。
目前,盤古氣象大模型可以用于預測海浪、高溫、台風、寒潮等氣象,相比傳統的氣象預測速度更快、準确率也更高。此前盤古和氣象局合作,提前 10 天預測了「瑪娃」的路徑。此外,盤古也提前兩天預測到了芬蘭寒潮到來,相比歐洲氣象局的預測,盤古的預測也更接近真實氣溫。
金融
在金融領域,盤古大模型與工商銀行合作,打造了一系列探索性的應用。
其中一個典型的場景是提高銀行櫃員的工作效率。工行在全國有數萬個網點,20 萬網點櫃員。他們需要在各種業務間切換,這會浪費大量的時間。
盤古金融大模型對銀行的各種操作、政策、案例文檔進行預訓練,能根據客戶的問題,爲櫃台工作人員自動生成流程和操作指導,将原來需要平均 5 次的操作降低爲 1 次,辦結時間縮短 5 分鍾以上。
而這隻是最初級的應用,華爲正在與金融行業探索,未來将大模型運用到信貸分析等更多的金融場景。
制造業
華爲本身也是一家制造企業,其生産制造的硬件産品,涉及通信基站、手機、汽車、芯片等多個領域。基于過去積累的經驗,華爲将盤古大模型引入到生産制造領域。
過去單産線制定器件分配計劃,往往要花費 3 個小時以上才能做齊 1 天的生産計劃。盤古制造大模型學習了華爲産線上各種器件數據、業務流程及規則以後,能夠對業務需求進行準确的意圖理解,并調用天籌 AI 求解器插件,1 分鍾即可做出未來 3 天的生産計劃。
藥物研發
在藥物研發領域,原來一款新藥研發平均需要 10 年時間、花費 10 億美金。盤古藥物分子大模型助力西安交通大學第一附屬醫院劉冰教授團隊發現全球 40 年來首個新靶點、新類别的抗生素,并将先導藥物研發周期縮短至 1 個月、研發成本降低 70%。
大模型融入華爲雲産品體系
除了在千行百業的落地實踐,華爲雲盤古大模型也深度融入了華爲雲的産品服務,重構産品創新。
盤古大模型 + 華爲雲服務
盤古大模型加持下,華爲雲一系列 B 端産品服務被升級重構。會上,華爲雲介紹了資料服務、雲客服、BI、雲搜索四項服務升級的細節。
在資料服務中,通過盤古大模型的文案生成和代碼生成技術,能夠提升資料撰寫和前端代碼編寫效率,将新産品上市周期大爲縮短。
在雲客服,通過嵌入行業知識庫和意圖挖掘能力的對話問答,實現全流程 AI 優先作答,提升客服工作效率 30%。
在 BI,通過 NL2SQL 和 AutoGraph 智能路由,實現 SQL 到可視化圖表的自動推薦,通過多輪自然語言交互,讓人人都能便捷地從數據中洞察業務細節。
在雲搜索,通過多模态 Embedding 和 NL2API 技術,實現視頻、文本、圖譜等廣泛場景搜索,借助強大的語義理解和泛化能力,讓搜索準确率提高 15%。
盤古大模型 + CodeArts 代碼工具
華爲雲将 CodeArts 研發工具與盤古大模型相結合,正式發布了面向開發者的智能編程助手 CodeArts Snap。
該工具訓練了 760 億行精選代碼、1300 萬篇技術文檔,具備智能生成、智能問答、智能協同三大核心功能,可以實現一句對話讓代碼生成、一次點擊即可自動注釋和生成測試用例,一條指令即可智能部署,讓每個軟件開發者都有自己的編程助手。
盤古大模型 + 數字人
華爲雲通過盤古基礎大模型賦能 MetaStudio 數字内容生産線,打造了盤古數字人大模型,提供模型生成和模型驅動兩大服務,并已經使用了 20 萬小時音視頻數據進行了預訓練。
基于這兩大服務,開發者可以快速生成和驅動數字人模型,賦能在線教育、文娛直播、企業會議等行業應用,讓每個企業員工實現「數字人自由」。例如,用戶隻需在華爲雲 MetaStudio 的服務頁面上傳 20 秒的個人視頻,就可以快速生成個性化的數字人講解視頻,過去 3 個研發人員 3 天完成的工作,現在隻需要 3 分鍾就可以完成。
盤古大模型 + 具身智能
會上,華爲雲還提到了盤古大模型在機器人領域的應用,并演示了一段視頻。
過去向機器人下命令需要開發者進行編程,而基于盤古大模型的自然語言理解能力,機器人可以識别自然語言,執行命令,并具備全域感知引導的自主智能。會上,華爲演示了一段視頻,用戶不需要輸入程序命令,隻需要用自然語言向機器人下令,機器人就可以完成拿取物品等命令,過程中會根據所處的環境情況作出自主判斷(比如移開擋住目标物體的雜物),從而完成任務。
華爲介紹,上述演示并非概念視頻,而是來自真實的産品,并在 HDC 大會期間在會場展出。
總結和思考:華爲能成 AI 另一極嗎?
張平安表示,「爲了幫助全球客戶、夥伴、開發者訓練和使用大模型,我們緻力于爲全球客戶打造世界 AI 另一極,爲所有 AI 開發者提供新的選擇」。
甚至更早之前,早在今年 3 月,任正非就曾在公司内部表達過相似的意思。他表示 AI 大模型上會風起雲湧,不隻是微軟一家。任正非的理由,其實也是今天華爲雲努力的方向,即人工智能軟件平台公司對人類社會的直接貢獻可能不到 2%,98% 都是對工業社會、農業社會的促進。
比如在中國、德國的工廠,都在推進人工智能對工業的促進,從而實現無人化的生産;比如天津港口的碼頭,貨物裝卸也試了無人化,代碼一輸入,從船上自動把集裝箱搬運過來,然後用汽車運走;比如山西的煤礦,在地下采用 5G+ 人工智能後,人員減少了 60-70%,大多數人在地面的控制室穿西裝工作。
這些都是過去數年 AI 已經大規模運用到産業側的實例,這些産業的共同點是有龐大的規模和産值,一點點效率的提升都能帶來巨大的收益。
而大模型的出現,實質上是提供了更加高效的生産力工具。一方面,對于這些原本已經在擁抱 AI 的産業,意味着更高的效率和更快的改造進程;而效率更高,也意味着對更多行業來說,更容易算好「經濟賬」,AI 有潛力從變革所謂幾大行業,變成改造千行百業。
這是華爲爲什麽要堅決走進産業的原因,實際上阿裏雲、騰訊雲、火山雲和百度雲等國内主要的雲服務大廠,也是相近的思路。而方向一緻、起點接近的情況下,在這場競賽中誰能跑的最快,比拼的就是從算力、大模型底座、平台、産品到具體解決方案的全鏈條能力。
因爲衆所周知的原因,華爲拿不到當下公認的全球最先進的計算芯片,看起來在這場競賽中先天不足。但從今天的發布會來看,華爲完全看不到受上遊掣肘而落後于人,在大模型的關鍵鏈條上,都拿出了成熟的産品、案例,解耦化的盤古大模型架構更是讓人眼前一亮。事實上,考慮到今天國産化的需求,在算力上不落後于人的華爲,被卡脖子的劣勢,很可能變成自主可控的優勢。
大模型成爲華爲的新機遇,看起來正在成爲現實。