壁仞科技合夥人梁剛：大模型訓練不僅靠芯片算力，軟件生态建設更重要

《科創闆日報》7 月 9 日訊（記者陳美）千億、萬億大模型的底座是芯片和算力，但大模型的訓練又不僅是芯片算力。

7 月 7 日，在 2023 世界人工智能大會（WAIC）啓明創投論壇 " 生成式 AI 與大模型：變革與創新 " 上，作爲通用計算體系的開發原創性公司，壁仞科技合夥人梁剛博士分享了他對大模型和算力的理解。

加入壁仞科技前，梁剛博士是業内資深大咖。他是範德堡大學電子工程學博士、西安交大無線電技術學士，在英特爾、Marvell，AMD 等有過近 20 年工作經驗，主要是從事軟件方面的研發和管理。在這 20 多年中，梁剛博士管理過上千人的工程團隊，成功推出了數十款芯片的研發和量産。在過去 8 年，梁剛博士是麥肯錫資深顧問，從事半導體和軟件方面的咨詢。

面對目前的算力需求，多數公司使用英偉達芯片，壁仞科技作爲國内自研的 GPU 公司，過去一年已推出 BR10x 芯片，并且在大模型推理和訓練中逐漸起到作用。

梁剛博士表示，首先是從算力和性能上看，BR10x 這款芯片能夠支持 BF16，算力達到 512 TFLOPS，這在業界是相當領先的。其次在訓推一體方面，BR10x 支持各種數據精度，比如 TF32，BF6， INT，其中 INT8 算力達 1024 TOPS。第三是帶寬，自主研發的 BLINK 壁砺能夠支持八卡互聯，加上 IB 網卡，壁仞的産品可以支持多機多卡的大環境。

當然，身爲工程師的梁剛博士也明白，光有算力還不行，助力大模型訓練需要落地，走進市場。

爲此，梁剛博士坦言：想讓一款芯片落地，光靠算力沒有用。過去一段時間，壁仞已做了很多工作：

首先壁仞的孵化軟件生态開始逐漸形成。6 月 30 号，壁仞發布軟件正式版本 ( release ) ；從模型上，壁仞跑通 GPT-2、 Stable Diffusion、LLaMa、百度文心等。從框架層面，壁仞已支持了 DeepSpeed, Hugging Face 和百度文心等框架。

其次，用數據和模型切分。近期，壁仞也已經實現了 TP、 PP、 DeepSpeed ZeRo` 數據并行，以及 Recompute、 Offload 等的策略和算法。

第三，分布式訓練。大模型訓練需要很多機器，通訊消耗非常高，所以需要有策略來充分發揮 BLINK 優勢。

此外，梁剛博士提醒說，不管有再好的機器和算力，都會出現個别闆卡出現問題的情況。在這一方面，壁仞在做壓力測試以及角落案例 ( corner cases ) ；另一方面，軟件上也在開發容錯機制，提升系統的穩定性。

當然，最重要是客戶的性價比。在梁剛博士看來，對硬件公司來說，除了芯片算力，還要在訓練上做到充分優化，尤其是大模型不僅單靠算力優化，還要從分布式角度做調整，最終在訓練上優化，幫助客戶。"

放眼到整個生态，梁剛博士深知，上面說的硬件算力、優化是一方面，最重要的是生态的建設。" 比如英偉達，旗下的 CUDA 平台助力英偉達成長爲 AI 産業龍頭，CUDA 平台能便于讓更多的技術人員參與開發，爲英偉達構建強大生态護城河壁壘。 "

對壁仞來說，梁剛博士認爲，打好基礎是第一步。過去的幾年壁仞證明了自己，壁仞是全新的自研架構，第一個芯片到了實驗室就點亮了。 A0 芯片就能量産了，這是十分不容易的。第二是保持相應合作。壁仞必須要跟國内的合作夥伴和客戶保持密切合作，讓産品不斷叠代、不斷更新，把事情做出來靠産品說話。第三，大模型對網絡需求非常高，壁仞會跟網卡、存儲商保持合作。

盡管目前國内軟件生态與國外相比還有很大差距，但市場一定要學會包容。從業近 30 年的梁剛博士認爲，半導體行業沒有捷徑和彎道可做，過程中必須踏踏實實做好每一件事。。

而在構建國内 GPGPU 生态上，梁剛博士認爲，硬件設計的周期是 1-2 年；軟件方面會更長，由于大模型應用帶來的緊迫感，相信這一周期會比過去短一些。