文:董指導
今天國内 AI 科技圈、AI 炒股圈,都被一則消息振奮了," 大模型最快推理芯片的一哥換人了,不再是英偉達了 "。
海外公司 Groq 基于自研芯片推出的推理加速方案,速度比英偉達的 GPU 快了十倍,成本卻降低爲十分之一,一來一去,百倍提升。難怪大家會興奮。
由于 Groq 不再采用 HBM,而是利用 SRAM 來加速,于是資本市場也把 SRAM 當了寶貝,相關上市公司股價快速上漲。
那麽,Groq 憑什麽這麽驚奇呢?SRAM 就這麽好用?
我翻看了 Groq 發布的論文,憑着僅存一點點的計算機原理,大概理了一點思緒。
1、首先,Groq 的産品設計場景,主要是 " 推理 " 階段,而英偉達目前産品在大模型訓練階段更好用。因此,Groq 的方案更突出 " 實時 "。
2、其次,這還是一個 " 專用 VS 通用 " 的故事。
在 AI 領域,爲什麽 GPU 能打敗 CPU 呢?因爲 CPU 就像一位教授,懂得多、能寫會算做事講邏輯;而 GPU 呢,就像高中生,雖然懂得不多,但架不住人多、又能并行運行。如果隻是解二元方程的話,那一百個高中生、同時計算,肯定比一個教授要高效得多。
于是,GPU 在 AI 領域,利用并行計算的優勢,大獲全勝。
但是,GPU 也還算個多面手。從下遊客戶就能看出來,遊戲宅男們希望買到英偉達的顯卡,數字貨币的礦工們也希望買到英偉達顯卡,搞氣象科學的、搞 AI 的也都希望買到英偉達的顯卡。多需求也必然會帶來一些功能設計、計算資源的冗餘浪費。
那麽,再來一個專門、隻用于機器學習的芯片,豈不是更加高效?
這就是谷歌 TPU(TensorProcessing Unit)芯片的思路。Tensor 來自于谷歌 TensorFlow 深度學習框架,突出了 TPU 爲深度學習而生。
Groq 的創始人就來自于谷歌,設計并實現了第一代 TPU 芯片的核心元件。他們團隊根據 TPU 的經驗進行了進一步優化,于是有了 LPU(Language Processing Unit),專爲 AI 計算提供高确定性的低延遲和高性能。
我看到他們這個介紹的時候,仿佛面前站着一排人在說:就是要讓你牛逼,誰也攔不住。
3、核心問題是,爲什麽 LPU 會更高效呢?這裏就涉及到指令調取等知識了。複雜的我不講,主要也是已經不懂了。說些大緻的原理。
A、計算有兩個必不可少的步驟:讀取數據 + 執行指令。
而 LPU 就是爲機器學習設計的。所以,預先就把機器學習高頻需要的指令,進行了定制,有一套适用于機器學習的指令集架構 ISA。
知道客戶要什麽就準備什麽,肯定比什麽都準備要高效。
B、其次,把深度學習的數據操作流程,拆解爲了更微小的操作,并通過不同的硬件排列,實現了功能交替。
主要功能硬件包括矩陣單元 MXM、用于逐點運算的 vector 單元、用于數據重塑的 SXM 單元、以及存儲器單元。而這裏的存儲用的是 SRAM。
Groq 将這個方式稱之爲 " 鏈條化(chaining)"。可以粗暴理解爲,GPU 還要解二元方程,LPU 把二次方程進一步拆解,有人專門做合并、有人做計算。或者說,像福特汽車設計了流水線一樣,效率大幅提升。
相比而言,英偉達的 GPU 采用的 HBM 技術,也是爲了加快讀取數據、處理數據的速度。但數據存在 DRAM 裏,再調取到 GPU 裏,就會産生時延。
C、LPU 采用的 SRAM,比英偉達采用的 DRAM 要快得多。
SRAM 中文是靜态随機存取存儲器,DRAM 就是動态存儲器。SRAM 是用觸發器來存儲信息,而且不需要對數據進行刷新,也可以同時送 " 行、列 " 地址。而 DRAM 是用電容存儲數據,需要刷新來保持數據,不然數據會丢失。行、列地址也是分兩次送的。
所以,結果就是,SRAM 運行速度要顯著快于 DRAM。
爲什麽 LPU 采用 SRAM,而英偉達采用 DRAM 呢?我的理解是,還得回到開頭的那句話:場景不一樣啊。
Groq 面向未來 AI 大爆發後的 " 推理 " 階段,用戶是實時交互的,數據也是實時的,數據進、數據出的,采用高速存儲合适。
而英偉達目前是應用于訓練,訓練必然有大量數據,且對實時要求沒那麽高。那用成本更低的 DRAM 也是合适的。
D、Groq 強調,友商是通過 "Hardware-defined 硬件定義 " 的方法來實現大規模互聯網絡,而我們是靠 "Software-defined 軟件定義 " 的思路,基于 tensor streaming processing ( TSP ) 實現大規模互聯。通過軟件預先設計,可以使得硬件更高效、可控。
E、所以最終效果就是,Groq 的芯片,相當于多個功能單元組成一個大的計算單元;而友商則是把小型計算單元,複制多次。
還是用造車舉例子就是,LPU 就是流水線工廠,100 個員工分幾組,每個組、每個人職能明确、配合娴熟;而友商是 100 個員工,每個人都擅長多個環節、都會造一輛車。福特流水線,已經證明了專業、細分、分工的有效性。
因此,LPU 對于 LLM 大語言模型而言,非常适合。
4、LPU 引起的熱烈讨論,是不是也反映了一個趨勢:簡單、專用的,打敗複雜、通用的。把一件事情做到極緻,就已經完美了。
計算,越來越專業、垂直;但大模型,卻又是在往通用、多模态發展。未來如何演繹,應該會非常精彩。希望中國玩家們不缺席、上舞台,也有機會站 C 位。
- 全文完