36 氪獲悉,潞晨科技宣布完成數億元的 A 輪融資。據公司介紹,本輪融資是潞晨科技成立 18 個月内完成的第三輪融資,此次融資資金将主要用于團隊擴張和業務拓展。
衆所周知,如今生成式 AI 的 " 湧現 " 能力來自于底層大模型的成熟,但訓練大模型需要的算力、網絡、數據成本非尋常公司能承受。而本文主角潞晨科技,希望爲這一難題提供解法。
潞晨科技成立于 2021 年,主要業務是通過打造分布式 AI 開發和部署平台,幫助企業降低大模型的落地成本,提升訓練、推理效率。公司創始人尤洋告訴 36 氪,自己此前在伯克利、新加坡國立大學均從事分布式計算、機器學習、高性能計算相關研究,曾創造 ImageNet 以及 BERT 訓練速度的世界紀錄。而在 2021 年左右,他更加笃信大模型的趨勢,所以在當年創立潞晨科技,希望降低大模型的落地門檻。
潞晨科技當前的産品包括開源高效深度學習系統 Colossal-AI 和對應的企業版 PaaS 平台。平台主要由異構内存管理系統、高效 N 維并行系統、低延時推理系統組成,整體希望幫客戶達成最小化模型部署成本、最大化計算效率的效果。
針對内存管理,尤洋對 36 氪表示,模型參數、層數越大,計算量相應也越大。GPT3 的 1750 億參數,可能需要占據 800G 内存。再加上訓練神經網絡時還需要存梯度、優化器狀态,"GPT3 在什麽都沒幹的情況下,就要消耗 3200G 内存。" 尤洋舉例。再加上内存資源其實較爲稀缺,所以科學管理内存資源在訓練大模型的場景下變得異常重要。當 GPU 内存放不下這些數據,還需要把部分數據遷移到 CPU、NVMe 硬盤上。
尤洋表示,管理 GPU、CPU、NVMe 硬盤被稱爲異構管理。過去,異構管理主要延續靜态思路,一開始就預估好參數、梯度、優化器等所需的資源。在尤洋看來,這種方式由于比較固化,沒辦法随着實際訓練過程調配,很可能存在浪費資源。但潞晨采取的動态管理方式,可以更加靈活的平衡資源," 我們希望數據都能放到 GPU 裏。但是如果 GPU 放不下了就放 CPU 裏,CPU 放不下就放 NVMe 裏,但同時我們需要最小化 CPU、GPU、NVMe 之間的數據移動,這是最重要的。" 尤洋表示,潞晨的異構内存管理系統可以幫助達成這一目标。
另一方面,企業如今訓練大模型,常基于成百上千張 GPU 卡完成。這是因爲,理論上,卡越多需要的訓練時間越少,大模型的落地也更具效率。但實際情況中,卡越多意味着承載計算功能的機器越多,而在最終彙總各機器結果時,通信又會造成新的效率損耗。
針對這一痛點,潞晨打造了高效 N 維并行系統。尤洋表示,在這一系統中公司采用了高維張量并行等方式提升效率。尤洋表示,這背後的原理主要是用二維的方式設計張量并行。張量并行可以讓計算任務被分解後同步進行。二維切片的方式,則讓每個機器隻需要和同行或者同列的機器打交道,不需要和所有機器打交道。" 假如我們要 1 萬個機器計算、傳統方法(一維)一個機器需要跟 9999 個剩下機器打交道,我們隻需要和 99 個機器打交道就可以。" 他說。
第三是低延時推理系統,作用是減少模型推理速度慢帶來的延時感。尤洋表示,解決這一問題,整體的部署方式和模型本身的優化都很重要。在優化方面,潞晨的内存管理、張量并行技術,以及剪枝蒸餾等方案均能發揮作用。
可以看出,異構内存管理系統、高效 N 維并行系統主要在訓練步驟中發揮效力,低延時推理系統則提升推理部分的速度。若再細分,異構内存管理系統更能幫助客戶節省資源成本,高效 N 維并行系統更能提升計算速度。尤洋表示,目前這三大系統均彙聚在公司的 PaaS 平台中,開源版本 Colossal-AI 目前也已獲得約 3 萬顆 GitHub 星星。在具體服務方式上,尤洋表示,目前客戶可以通過潞晨的 PaaS 平台直接訓練自己的模型,潞晨也可以幫助客戶訓練模型。據介紹,目前潞晨的方案已在自動駕駛、雲計算、零售、醫藥、芯片、金融等行業落地。
Colossal-AI GitHub 星數
在 2023 年的整體規劃上,尤洋告訴 36 氪,今年以來公司的業務量随着各行業客戶的模型訓練需求激增,預計收入整體相比去年會增長 3-5 倍。據了解,本輪融資後潞晨将加速擴張,并希望吸引招募更多的 MLOps、AI 大模型、AI 框架等領域優秀人才加入,以更好服務客戶。