《科創闆日報》7 月 9 日訊(記者 陳美) 千億、萬億大模型的底座是芯片和算力,但大模型的訓練又不僅是芯片算力。
7 月 7 日,在 2023 世界人工智能大會(WAIC)啓明創投論壇 " 生成式 AI 與大模型:變革與創新 " 上,作爲通用計算體系的開發原創性公司,壁仞科技合夥人梁剛博士分享了他對大模型和算力的理解。
加入壁仞科技前,梁剛博士是業内資深大咖。他是範德堡大學電子工程學博士、西安交大無線電技術學士,在英特爾、Marvell,AMD 等有過近 20 年工作經驗,主要是從事軟件方面的研發和管理。在這 20 多年中,梁剛博士管理過上千人的工程團隊,成功推出了數十款芯片的研發和量産。在過去 8 年,梁剛博士是麥肯錫資深顧問,從事半導體和軟件方面的咨詢。
面對目前的算力需求,多數公司使用英偉達芯片,壁仞科技作爲國内自研的 GPU 公司,過去一年已推出 BR10x 芯片,并且在大模型推理和訓練中逐漸起到作用。
梁剛博士表示,首先是從算力和性能上看,BR10x 這款芯片能夠支持 BF16,算力達到 512 TFLOPS,這在業界是相當領先的。其次在訓推一體方面,BR10x 支持各種數據精度,比如 TF32,BF6, INT,其中 INT8 算力達 1024 TOPS。第三是帶寬,自主研發的 BLINK 壁砺能夠支持八卡互聯,加上 IB 網卡,壁仞的産品可以支持多機多卡的大環境。
當然,身爲工程師的梁剛博士也明白,光有算力還不行,助力大模型訓練需要落地,走進市場。
爲此,梁剛博士坦言:想讓一款芯片落地,光靠算力沒有用。過去一段時間,壁仞已做了很多工作:
首先壁仞的孵化軟件生态開始逐漸形成。6 月 30 号,壁仞發布軟件正式版本 ( release ) ; 從模型上,壁仞跑通 GPT-2、 Stable Diffusion、LLaMa、百度文心等。從框架層面,壁仞已支持了 DeepSpeed, Hugging Face 和百度文心等框架。
其次,用數據和模型切分。近期,壁仞也已經實現了 TP、 PP、 DeepSpeed ZeRo` 數據并行,以及 Recompute、 Offload 等的策略和算法。
第三,分布式訓練。大模型訓練需要很多機器,通訊消耗非常高,所以需要有策略來充分發揮 BLINK 優勢。
此外,梁剛博士提醒說,不管有再好的機器和算力,都會出現個别闆卡出現問題的情況。在這一方面,壁仞在做壓力測試以及角落案例 ( corner cases ) ;另一方面,軟件上也在開發容錯機制,提升系統的穩定性。
當然,最重要是客戶的性價比。在梁剛博士看來,對硬件公司來說,除了芯片算力,還要在訓練上做到充分優化,尤其是大模型不僅單靠算力優化,還要從分布式角度做調整,最終在訓練上優化,幫助客戶。"
放眼到整個生态,梁剛博士深知,上面說的硬件算力、優化是一方面,最重要的是生态的建設。" 比如英偉達,旗下的 CUDA 平台助力英偉達成長爲 AI 産業龍頭,CUDA 平台能便于讓更多的技術人員參與開發,爲英偉達構建強大生态護城河壁壘。 "
對壁仞來說,梁剛博士認爲,打好基礎是第一步。過去的幾年壁仞證明了自己,壁仞是全新的自研架構,第一個芯片到了實驗室就點亮了。 A0 芯片就能量産了,這是十分不容易的。第二是保持相應合作。壁仞必須要跟國内的合作夥伴和客戶保持密切合作,讓産品不斷叠代、不斷更新,把事情做出來靠産品說話。第三,大模型對網絡需求非常高,壁仞會跟網卡、存儲商保持合作。
盡管目前國内軟件生态與國外相比還有很大差距,但市場一定要學會包容。從業近 30 年的梁剛博士認爲,半導體行業沒有捷徑和彎道可做,過程中必須踏踏實實做好每一件事。。
而在構建國内 GPGPU 生态上,梁剛博士認爲,硬件設計的周期是 1-2 年;軟件方面會更長,由于大模型應用帶來的緊迫感,相信這一周期會比過去短一些。