有沒有在開發大模型?在學習。
什麽時候發布大模型?沒計劃。
當被問起自研大模型,字節跳動副總裁楊震原口風甚嚴。但席卷全球的這場大模型競逐戰,沒有人會主動放棄陣地。
最新線索,在上海露出端倪。
火山引擎對外的最新技術、産品發布動作中,我們發現:煉大模型的基礎設施,不僅已經在字節内部運轉,還到了能夠對外輸出 " 技術秘籍 " 的階段。
直觀的數字,更能說明情況:
抖音 2022 年最火特效「AI 繪畫」,就是在火山引擎機器學習平台上訓練而成。在訓練場景下,基于 Stable Diffusion 的模型,訓練時間從 128 張 A100 訓練 25 天,縮短到了 15 天,訓練性能提升 40%。
在推理場景下,基于 Stable Diffusion 的模型,端到端推理速度是 PyTorch 的 3.47 倍,運行時對 GPU 顯存占用量降低 60%。
而就在全球最大雲廠商 AWS 宣布,加入大模型競賽,并且定位是 " 中立平台 ",會接入 Anthoropic、StabilityAI 等模型廠商的大模型之際,量子位也獲悉:
火山引擎,也在以類似路徑探索大模型的落地,做法是用 " 機器學習平台 + 算力 " 爲大模型企業提供 AI 基礎設施。火山引擎總裁譚待透露,國内幾十家做大模型的企業,七成已經在火山引擎雲上。
大模型企業爲什麽會選擇火山引擎?我們和火山引擎機器學習總監吳迪聊了聊。
大模型趨勢,寫在雲計算的最新技術裏
在 AI 方面,此番火山引擎重點提到了兩個平台:機器學習平台和推薦平台。
機器學習平台
其中,機器學習平台涉及當下科技圈最熱的兩個話題——龐大算力的調度問題,以及 AI 開發的效率問題。
先來看算力調度。
說到大模型時代,OpenAI 首席執行官 Sam Altman 曾發表觀點稱," 新版摩爾定律很快就要到來,宇宙中的智能每 18 個月翻一倍 "。
而這背後,模型訓練開發所需要的算力規模,可想而知。
但用算力,實際上并不是一個純堆硬件的事情。舉個例子,如果機器學習框架跟底層的硬件是各自獨立的一套,那在訓練 AI 模型時,由于通信延遲、吞吐量等問題,訓練效率就無法最大化。
簡單來說,就是很多算力會在這個過程中被浪費掉。
解決方法,是軟硬一體。
吳迪介紹,火山引擎的自研 DPU,将算力層和平台層統一起來進行了整體優化。比如,将通信優化的算法直接寫到網卡硬件中,以降低延遲、削減擁塞。
測試數據顯示,火山引擎的通信框架 BytePS,在模型規模越大時,收益會越高。
而在AI 開發效率方面,火山引擎推出了Lego 算子優化。
具體而言,這一框架可以根據模型子圖的結構,采用火山引擎自研高性能算子,實現更高的加速比。
前文提到的抖音特效訓練效率的提升,就得益于此:
在推理場景下,使用 Lego 算子優化,可以将基于 Stable Diffusion 模型的端到端推理速度提升至 66.14 it/s,是 PyTorch 推理速度的 3.47 倍,運行時 GPU 顯存占用量降低 60%。
在訓練場景下,在 128 張 A100 上跑 15 天,模型即可訓練完成,比當時最好的開源版本快 40%。
目前,火山引擎這一套機器學習平台,已經部署到了 MiniMax 的文本、視覺、聲音三個模态大模型訓練和推理場景中。
MiniMax 聯合創始人楊斌說,依托火山引擎機器學習平台,MiniMax 研發了超大規模的大模型訓練平台,高效支撐着三個模态大模型每天千卡以上的常态化穩定訓練。在并行訓練上實現了 99.9% 以上的可用性。除了訓練以外,MiniMax 也同步自研了超大規模的推理平台,目前擁有近萬卡級别的 GPU 算力池,穩定支撐着每天上億次的大模型推理調用。
有穩健的大模型基礎設施,MiniMax 從零開始自主完整地跑通了大模型與用戶交互的叠代閉環,實現從月至周級别的大模型叠代速度,和指數級的用戶交互增長。MiniMax 和火山引擎一起爲大模型訓練搭建了高性能計算集群,一起緻力于提升大模型訓練的穩定性,保證了千卡訓練的任務穩定運行數周以上。
從今年開始,MiniMax 又和火山引擎在網絡和存儲上進行了更深入的優化合作,實現更低的網絡延遲,将帶寬利用率提升了 10% 以上。
吳迪坦言," 軟硬一體、通信優化、算子優化都不是新概念,火山引擎機器學習平台也沒有特别牛、特别超前的大招。我們靠的就是務實嚴謹地不斷把細節做紮實,把重要技術錘煉到位,這樣才能赢得客戶的信任。"
推薦平台
機器學習平台之外,這次在自家看家本領——推薦系統上,火山引擎對外拿出了推薦系統全套解決方案:從物料管理,到召回排序,再到效果分析、A/B 測試和模型算法,都可以開箱即用。
而作爲産業界近年來落地最爲成功的 AI 應用之一,在推薦領域,深度學習模型越來越大、越做越深的趨勢,也早已顯現其中。
吳迪介紹,由于推薦是一個高度定制化的場景,每個人的興趣、畫像都有單獨的 embedding,因此大規模稀疏模型很重要。
同時,由于真實世界在時刻變化,因此背後又存在一重實時訓練的挑戰。
這都對傳統的深度學習框架提出了很大的挑戰。
爲此,火山引擎不僅将以上工程實現進行封裝,推出了基于 TensorFlow 的機器學習訓推一體框架Monolith,還拿出了針對智能推薦的高速 GPU 訓練和推理引擎——Monolith Pro。
值得關注的是,Monolith Pro 覆蓋的場景包括:
針對關鍵場景的超大模型,使用高密度 GPU 進行超高速訓練;
覆蓋更多場景的模型,混合使用 CPU+GPU 高速訓練。
吳迪進一步解釋說,推薦模型需要做大做深,才能對衆多事物之間的關聯有更好的理解——這一點,如今已經在 GPT 引發的一系列現象上得到充分驗證。
因此在現在這個時間點,對于任何正在開展推薦廣告業務的公司而言,高價值的數據是一方面,另一方面,找到訓練更強、更大、更實時模型的方法,對整個系統進行智能化升級,已經到了一個關鍵期。
所以,Monolith Pro 又具體能實現怎樣的效果?吳迪透露,基于 Monolith Pro,抖音内部的某重要廣告場景,原本一次廣告訓練需要 15 個月樣本,訓練時間爲60 小時,現在隻需要5 小時就能完成。
工程師可以做到上午啓動訓練,下午就能開 A/B 測試了(笑)。
大模型改寫雲計算規則
由 ChatGPT 而起,在海内外一波波大模型的發布中被推至高潮,一場新的技術變革已然勢不可擋。
雲計算,作爲一個早已深深與 AI 關聯的業務,站立橋頭,也最早面臨着規則被重新改寫的境況。
随着大模型能解決越來越多下遊任務,如何用大模型,又成爲了新的問題:無論是訓練還是推理,大模型都需要很強的基礎設施支持。
雲計算成爲了最便捷的上車途徑。同時,雲廠商們也勢必要面向大模型,重塑自身雲産品的面貌。
吳迪認爲,作爲一項技術,未來大模型會是百花齊放的局面。豐富的需求會催生出若幹成功的模型提供商,深入滿足千行百業的業務需求。
與此同時,大模型的應用也面臨若幹基礎問題:
基礎大模型可能還需要用更多高質量數據,做進一步的增量學習和 finetune,才能真正在産業中落地應用。整個流程需要更爲敏捷和易用。
大模型将成爲大數據時代的 " 中央處理器 ",它能夠控制插件、接口,以及更豐富的下遊模型。大模型需要這些 " 手 " 和 " 腳 ",才能進入我們生活的方方面面。
随着大模型應用的增多,數據安全和信任将成爲産業關注的焦點。
推理效率。大模型的訓練成本高昂,但長期來看,全社會投入在大模型推理上的開銷将逐漸超過訓練成本。在微觀上,能以更低單位成本提供大模型相關服務的公司,将獲得競争優勢。
但可以肯定的是,大模型改造各行各業的浪潮已至。
有人正面迎戰,有人從更底層的問題出發,嘗試破解新的問題和挑戰。
共同點是,大模型的潮頭來得迅猛激烈,但在第一線迎接風暴的,從來不是沒有準備之人。
現在,到了檢驗真正 AI 能力和積累的時刻。至少在與大模型相伴相生的雲計算領域,精彩才剛剛開幕。
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~