4 月 23 日消息,一份關于百度文心一言的内部會議紀要流出。從紀要内容看,3 月至今,文心一言啓動邀測後一個多月内,用戶同時在線數激增,對響應速度提出了挑戰。
完成 4 次叠代,最近一次推理提升 123%
據流傳出來的文心一言内部紀要顯示,用戶同時在線數增長對模型層和框架層聯合優化協同有了更高要求。飛槳在文心一言開啓邀測後,一個月内叠代了 4 次,最近一次帶來的推理提升達到 123%。
除此之外,幾個大模型推理的關鍵指标也被一并曝出。
首先,飛槳支持大模型推理服務在 4 月 19 日再次叠代,已叠代至 3.5 版本。其特點是業内首創支持動态插入的分布式推理引擎。推理版本一個月内叠代了 4 次。
飛槳與文心一言聯合優化,已在以下三個方面效果提升:模型推理效率提升 10 倍,模型推理性能提升 50%,模型算力利用率提升 1 倍。
我們通俗來理解一下這幾個關鍵技術指标。
模型推理效率提升 10 倍,這意味着大模型推理的成本可以降低爲原來 1/10,也表明可以并發爲 10 倍數量用戶提供服務。
大語言模型可謂 " 暴力美學 ",耗資巨大。像文心一言這樣千億規模的模型參數量,帶來了計算量巨大、内存占用巨大等挑戰,不僅需要強大的算力支撐,同時還需要深度學習框架能支持大規模計算資源下高效、穩定的分布式訓練,并要保證模型收斂性。
模型效率提升,對應着成本的下降,這就釋放了一個重要信号。今年來,異軍突起的大語言模型,在經曆技術層面快速叠代後,或将撕開大模型産業落地應用的口子,加速迎來大模型産業化發展。
其次,模型推理性能提升 50%,是指的模型效果層面的提升。這意味着文心一言在不斷學習進化,學的更快更好了。從百度内部紀要來看,這一點上飛槳同樣功不可沒。
在推理過程中,框架需要結合大模型獨特的算力集群特點、模型特點、結構、參數量等進行工藝上的 " 獨家定制 ",相當于飛槳爲文心一言定制好了一個生産流程,有着精密的産線、精密的工藝。
飛槳生産大模型的 " 發動機和變速箱 "
構建 ChatGPT、文心一言這樣的語言大模型考驗三方面的實力:數據、算力和算法,而 AI 框架可以在基礎層面,進行 " 工藝優化 ",提高算力、算法效率,充分釋放大模型的訓練、推理過程中的潛力。飛槳在文心一言的 " 實戰 " 中的确發揮出了這樣的作用。
如果大語言模型文心一言是發動機的話,飛槳是生産發動機和變速箱的,可以讓發動機整體各個部件的組合更精密、動力更強,還可以自主叠代演進。反之,如果沒有百度的框架飛槳做訓練、推理,協同優化,大語言模型就像是無法自主演進的發動機,動力不一定強。
AI 框架之于大模型的重要性,在業内亦早有迹象。前不久,媒體曝出,原美團聯合創始人王慧文創立的大模型公司已與 AI 框架創業公司一流科技 Oneflow 達成并購意向,意在補齊框架層面的短闆。
第三個技術指标是,模型算力利用率提升 1 倍。這表明飛槳框架一方面與大模型的訓練和部署進行協同優化,同時,框架向下承接芯片,相當于芯片的 " 指令集 ",适配優化後得以激發芯片的潛力,模型算力的利用率才能夠有所提升。
技術指标的一系列連鎖向好,反映的實則是背後技術頂層設計策略的重要性。百度 CEO 李彥宏曾提到,進入人工智能時代,IT 技術棧發生變化,已是四層技術棧,分别是芯片層、框架層、模型層、應用層。這四層端到端的訓練和優化,是百度能在全球大廠中最早推出大語言模型的關鍵。
模型層文心一言的快速叠代,實際對框架層和芯片層,甚至應用層的發展也是一種刺激和反哺。
除支持大模型推理之外,在訓練大模型時,也需要構建大規模分布式計算系統。而飛槳即是百度當初在 2016 年推出的開源分布式架構,爲應對并行 GPU 的訓練。大規模分布式訓練曆來是飛槳非常有特色的一個功能 , 領先其它框架實現了千億稀疏特征、萬億參數、數百節點并行訓練技術。
比如,支持包括模型并行、流水線并行在内的廣泛并行模式和加速策略,推出業内首個通用異構參數服務器架構、4D 混合并行策略和端到端自适應分布式訓練技術,這都引領了大規模分布式訓練技術的發展趨勢。
放眼行業,有傳言谷歌、Meta 等深度學習框架并沒有基于大模型進行設計,導緻當出現大模型需求時無法直接應用 TensorFlow 和 PyTorch,而是要在其基礎上開發插件。
有分析人士解讀認爲," 大模型就仿佛汽車的發動機,光賬面上的動力強,參數大是沒有用的,要壓榨出發動機瞬時最大爆發力(QPS)以及最優的性能表現。深度學習框架就像是生産發動機和變速箱的,可以讓發動機整體部件組合更精密、動力更強。自研産品彼此适配度更高,協同會更高效,這可能是效率提升的最根本原因。"