钛媒體 App 4 月 16 日消息,Create 2024 百度 AI 開發者大會在深圳召開。期間,百度集團執行副總裁、百度智能雲事業群總裁沈抖正式發布新一代智能計算操作系統——萬源。
沈抖表示," 傳統的雲計算系統依然重要,但不再是主角,我們需要一個全新的操作系統,對新的計算平台,也就是智能計算做好抽象和封裝,重新定義人機交互,爲開發者提供更簡單、更流暢的開發體驗。"
萬源通過對 AI 原生時代的智能計算平台進行抽象與封裝設計,爲用戶屏蔽掉雲原生系統與異構算力的複雜性,提升 AI 原生應用開發效率與體驗。
操作系統的演變
沈抖首先回顧了操作系統的發展曆史,他提到,80 年前,第一代 " 程序員 " 手動插拔電纜、轉動旋鈕,用布線闆來操作計算機,難度大、效率低,還容易出錯。後來,彙編語言和彙編器出現,開發者可以用一種相對自然的方式告訴機器如何工作,大大提高了開發效率。這種讓程序代替人工、讓軟件管理硬件的方式,就是操作系統的雛形。
但這還遠遠不夠。高級編程語言和編譯器随後誕生,計算平台進一步進化,開發者可以用更接近人類的表達方式去開發應用,無需關心底層軟硬件的複雜性。大多數的應用可以在不修改任何代碼的情況下,在不同硬件上跑起來。與之相對應地,軟件越來越複雜,硬件越來越強大,随之升級的是快速叠代的操作系統。
本質上,操作系統就是管理硬件和軟件,往下一層層屏蔽底層的複雜性、往上抽象成簡單的交互界面。對開發者來說,隻需要關注業務本身的邏輯,使用簡單的開發語言和工具,開發相應的軟件功能。
随着軟件規模和複雜度的提高,單台機器已經不能滿足需求,集群成爲主導。這時候,操作系統管理的對象不再是單台機器和運行在上面的 " 進程 ",而是整個集群和上面運行的各種 " 微服務 ",管理的對象和複雜性有了質的變化。
雲計算應運而生,集群管理的複雜性從此被隐去,開發者可以按需擴縮容,靈活響應市場的變化。當大模型出現,情況又發生了新的變化。
" 機器和系統第一次不再是人類的提線木偶,而是具備了理解、生成、邏輯、記憶的能力。這将徹底改變人和機器的關系,這其中最重要的一點就是軟件開發的範式。 編程不再是少數經過專業訓練的程序員的特權,相反,人人都是開發者; 編程不再需要從 c/c++ 學起,而是從自然語言開始; 編程不再是面向過程、面向對象,而是面向需求,以後,編程的過程,就是一個人表達願望的過程。" 沈抖表示。
他認爲,大模型會徹底颠覆原有的操作系統。在操作系統的内核中,底層的硬件從以 CPU 算力爲主變成以 GPU 算力爲主,而且第一次增加了硬件和軟件以外的資源,也就是被大模型壓縮的世界知識。操作系統管理的對象也因此發生了本質的變化,從管理進程、管理微服務,變成了管理智能。
圖片系 AI 生成
AI 時代的系統需要能管理萬卡規模的集群,需要極緻發揮 GPU、CPU 的性能,需要高速互聯。它需要有強大的大模型作爲核心引擎,不僅是語言大模型,還有視覺大模型,這些構成了操作系統的内核。
在内核層之上,還需要構建起強大的大模型服務能力,提供全面的模型精調、評估、部署、調用等工具鏈。還需要有好的應用開發工具去做工作流編排、插件管理,讓應用開發像搭積木一樣簡單。
作爲企業服務,安全和運維也必不可少。它還要隐藏掉上一代雲原生系統的複雜性。當然,最終,它要能夠加速 AI 原生應用的爆發。
萬源——用自然語言定義軟件
" 有一種說法叫軟件定義世界,萬源就是來幫助人類用自然語言定義軟件。" 沈抖說道。
具體來看,萬源主要由 Kernel(内核)、Shell(外殼)、Toolkit(工具)三層構成,首先是内核層,在算力資源管理方面,百度百舸 · AI 異構計算平台針對大模型訓練、推理等任務,對智算集群的設計、調度、容錯等環節進行了專項優化。目前,百舸能夠實現萬卡集群上的模型有效訓練時長占比超過 98.8%,線性加速比、帶寬有效性分别高達 95%,算力效能業界領先。
此外,百舸還兼容昆侖芯、昇騰、海光 DCU、英偉達、英特爾等國内外主流 AI 芯片,支持用戶以最小代價完成算力适配。相比模型推理," 一雲多芯 " 在模型訓練場景中是極難攻堅的難題,主要包含兩類細分場景:
1、智算集群中存在多個訓練任務,單一廠商芯片隻服務單一任務;
2、在每個獨立的模型訓練任務中同時使用不同廠商芯片。這就需要解決不同廠商芯片算力均勻切分、芯片間通信效率優化等問題,難度極高。
目前,百舸已經實現了單一訓練任務下不同廠商芯片的混合訓練,且百卡規模性能損失不超過 3%,千卡規模性能損失不超過 5%,業界領先。最大程度上屏蔽硬件之間差異,幫助用戶擺脫單一芯片的依賴,實現更優成本,打造更具彈性的供應鏈體系。
萬源内核中的另一個重要組成部分是大模型。大模型能夠将巨量的世界知識進行高效壓縮,并将自然語言的理解、生成、邏輯、記憶能力進行封裝。目前,萬源内核中既包含了業界領先的 ERNIE 4.0、ERNIE 3.5 大語言模型,也包括 ERNIE Speed/Lite/Tiny 等輕量級模型、文心視覺大模型和各具特色的第三方大模型,充分滿足用戶在不同業務場景下的多樣化需求。
在内核層之上是 Shell 層,通過百度智能雲千帆 ModelBuilder 解決内核中模型的管理、調度、二次開發等問題,屏蔽掉模型開發的複雜性,幫助更多人隻投入少量的數據、資源和精力,就能快速精調出适合自己業務的模型。同時,在實際應用中,ModelBuidler 提供的模型路由服務,能夠自動爲不同難度的任務選擇合适參數規模的模型,給出平衡效果與成本的最優模型組合。經測算,在模型效果基本持平的情況下,模型路由平均降低推理成本多達 30%。
在 Shell 層之上,千帆 AppBuilder 和 AgentBuilder 共同構成了工具層,爲開發者提供 AI 原生應用開發能力。尤其是 AppBuilder 提供的工作流編排功能,支持開發者使用預置的模闆和組件,定制自己的業務流程,還能夠集成、擴建自己的特色組件,在不同節點上選用适合的模型編排實現業務邏輯。
在 AppBuilder 上開發 AI 原生應用的過程中,還可以直接調用通過 ModelBuilder 精調過的模型,優化開發體驗。在應用開發完成後,可以一鍵發布到百度搜索、微信公衆号等平台,也可以通過 API 或 SDK 的方式直接集成到用戶自己的系統中。
沈抖提到,萬源的發布是一個起點。未來,百度智能雲将進一步開放操作系統層面的生态合作。向上,開放更多的能力和接口,開發者可以非常簡單地開發應用;向左,大家可以用萬源做基礎、打造适合自己的垂直行業的操作系統;向右,可以把萬源直接部署在自己的智算中心,享受穩定、安全、高效的智能計算平台;向下,我們會适配更多的芯片,爲開發者進一步隐去異構集群的複雜性,讓不同的芯片都能發揮最大的效能。
大模型技術與 AI 原生應用的結合,正在推動雲服務向以 AI 爲核心的新一代智能計算操作系統方向發展,萬源是百度智能雲的一個答案。
(本文首發钛媒體 APP 作者|張帥,歡迎添加作者 mr3right 爆料、交流)