現代快報訊(記者 盧河燕 杜雪迎)未來網絡正描繪着網絡發展的新藍圖,助力 " 東數西算 " 賦能數字經濟發展。8 月 23 日,第七屆未來網絡發展大會在南京上秦淮國際文化交流中心召開。紫金山實驗室聯合江蘇省未來網絡創新研究院、江蘇未來網絡集團、江蘇移動、江蘇聯通、甯夏電信、國家 ( 深圳 · 前海 ) 新型互聯網交換中心等單位,共同發布東數西算算網操作系統跨廣域調度試驗成果。
在發布活動現場,該試驗采用訓練推理一體化的業務場景,在中衛、南京、深圳三個城市進行效果演示。傳統的訓推一體機是在一台物理服務器中集成實現訓練和推理,未來面向東數西算 " 全國一台超級計算機 " 的願景,最佳的方案就是将訓練任務分發到算力質優價廉的西部,将推理任務分發到終端用戶密集的東部,以充分發揮不同區域的協同效應。
據介紹,東數西算算網操作系統跨廣域調度試驗該試驗演示包括三個部分:訓推任務——全局智能分發;模型文件——跨域即時同步;算力資源——極緻動态伸縮。
第一部分訓推任務——全局智能分發。程序開發者,向系統分别描述訓練和推理任務對于算網資源的需求,訓練任務是強計算、弱交互的,系統會優先将其向價格優惠的算力樞紐節點進行分發,相對而言推理任務是強交互、弱計算的,系統會按需将其向靠近用戶的算力集群進行分發。其中,訓練任務的程序會立即運行,而推理任務的程序會等到有用戶訪問時才觸發運行。
第二部分模型文件——跨域即時同步。在訓練任務的程序運行過程中,系統接收到用戶訪問時會根據用戶所在位置就近地觸發推理任務的程序運行。當訓練任務的程序運行完畢,系統會自動将訓練任務生成的模型文件,即時地同步到各個推理任務所在運行的區域,這其中可通過 CENI 的确定性網絡能力保障跨域同步的傳輸質量。模型文件同步後,推理任務即可開始正常爲用戶提供服務。
第三部分算力資源——極緻動态伸縮。在推理任務的程序運行過程中,系統能夠根據在線用戶數量對算力資源進行動态伸縮。當在線用戶激增時,系統觀察到網絡請求數量的快速增加,并自動觸發程序的批量擴展,同時自動分配更多的算力資源用于保障服務質量。當在線用戶減少時,系統将相應地進行程序收縮與資源釋放,當用戶全部下線時,系統自動将程序關停并釋放掉所有資源。
現代快報記者了解到,本次試驗在能力方面,直觀驗證了在訓練推理一體化場景中,算網操作系統可實現訓練任務的全局智能分發、模型文件的跨域即時同步,以及算力資源的極緻彈性伸縮。在技術方面,本質區别于傳統多雲管理平台對于虛拟機和虛拟網絡的多地域配置,轉變爲算網操作系統對于應用程序和連接質量的跨廣域調度,爲實現 " 全國一台超級計算機 " 提供了基礎。在使用方面,無論是程序開發者還是終端用戶,都無需感知資源同時能任意使用資源,進一步地向 " 算力像水電一樣方便地使用 " 的願景目标邁進。(官方供圖)
(校對 張紅霞 編輯 王鵬)