後 ChatGPT 時代下的大模型" 算力難 "問題," 快、好、省 " 的解法,又來了一個。
就在今天,享有 "AI 界奧運會 " 之稱的全球權威 AI 基準評測MLPerf Inference v3.0,公布了最新結果——
來自中國的 AI 芯片公司,墨芯人工智能(下文簡稱 " 墨芯 "),在最激烈的 ResNet50 模型比拼中奪冠!
而且在此成績背後,墨芯給大模型時代下的智能算力問題,提供了一個非常具有價值的方向——
它奪冠所憑借的稀疏計算,堪稱是大模型時代最不容忽視的算力 " 潛力股 "。
不僅如此,墨芯此次還是斬獲了開放任務分區 " 雙料冠軍 " 的那種:
墨芯 S40 計算卡,以 127,375 FPS,獲得單卡算力全球第一;
墨芯 S30 計算卡,以 383,520 FPS 算力,獲整機 4 卡算力全球第一。
而且墨芯靠着這套打法,在制程方面更是用首顆稀疏計算芯片12nm 的 Antoum Ⓡ打敗了 4nm。
不得不提的是,這次對于墨芯而言,還是 " 梅開二度 ";因爲它在上一屆 MLPerf,憑借 S30 同樣是拿下了冠軍。
在與 GPT-3 參數相當的開源 LLM —— 1760 億參數的 BLOOM 上,4 張墨芯 S30 計算卡在僅采用中低倍稀疏率的情況下,就能實現 25 tokens/s 的内容生成速度,超過 8 張 A100。
那麽稀疏計算爲什麽對大模型有這般良效?
算力紀錄再度被刷新
我們不妨先來看下,墨芯所刷新的紀錄到底是怎樣的一個水平。
以墨芯 S40 爲例,在 MLPerf 數據中心的圖像任務主流模型 ResNet-50 上,且在相同數據集、相同精度條件下,算力達 127,375 FPS。
這個 " 分數 " 是老牌玩家英偉達 H100、A100 的 1.4 倍和 2.9 倍!
△1、評測條件:MLPerf 相同條件、數據集、精度;2、A100 單卡算力數據選擇近兩屆 MLPerf 最佳成績;3、"*" 代表稀疏等效算力。
而墨芯 S30 計算卡,正如我們剛才提到的,獲得了 ResNet-50 模型 " 整機 4 卡 " 冠軍,其算力 383,520 FPS;是英偉達 H100 的 4 卡成績的 1.8 倍,并且超過英偉達 A100 的 8 卡成績。
△1、評測條件:MLPerf 相同模型、數據集、精度;2、"*" 代表稀疏等效算力。
再從自身對比角度來看,墨芯 S40 計算卡比上屆冠軍 S30 計算卡的算力增幅達 33%。
并且與上一次 MLPerf 相比,墨芯産品相較 H100 和 A100 的算力優勢分别擴大了 20% 和 90%。
△1、評測條件:MLPerf 相同條件、數據集、精度;2、A100 單卡算力數據選擇近兩屆 MLPerf 最佳成績;3、"*" 代表稀疏等效算力。
在 NLP 模型 BERT 上,墨芯 S40 計算卡算力 5,069 SPS 達到英偉達提交的 A100 算力的 2.7 倍。
△1、評測條件:MLPerf 相同模型、數據集、精度;2、"*" 代表稀疏等效算力。
更重要的一點是,随着 AIGC 的大爆發,加速推理速度、可以在線實時交互,成爲了亟待解決的需求,而這也是大模型落地的一大痛點。
而在本次 MLPerf 中,墨芯 S30 與 S10 計算卡在離線(Offline)與在線(Server)兩種模式下,均展現出了優異的表現。
△1、評測條件:MLPerf 相同模型、數據集、精度;2、"*" 代表稀疏等效算力。
這一點,便證明了稀疏計算是具備同時兼顧高吞吐、低延時的獨特優勢的。
爲什麽稀疏計算會成爲正解?
簡單理解,稀疏化就是一種聰明的數據處理和模型壓縮方式,它讓神經網絡在計算時,能夠僅啓用所需的神經元。
而稀疏計算就是将原有 AI 計算的大量矩陣運算中,含有零元素或無效元素的部分剔除,以加快計算速度,由此也能進一步降低模型訓練成本。
自從 Transformers 掀起大模型浪潮後,稀疏計算也成爲了大廠關注的重點方向。
2021 年,谷歌研究和 OpenAI 就罕見合作論文《Sparse is Enough in Scaling Transformers》,力證稀疏計算能爲大模型帶來數十倍加速。
而更早以前,2017 年 OpenAI 就發布了稀疏計算内核,實現了在同等計算開銷的情況下,能計算更深的神經網絡。
谷歌這幾年也密集發布了稀疏計算方面的多項工作,包括 Pathways、PaLM、MoE、GLaM 等。
其中 Pathways 架構是稀疏計算領域的一項重要工作。谷歌在當初發布時将其稱爲 " 下一代人工智能架構 ",其技術博客由谷歌大腦負責人 Jeff Dean 親自操刀撰寫。
由此可見谷歌對 Pathways 架構及稀疏計算的重視。
這篇博客中寫道,當今的模型是稠密、低效的,Pathways 能将它們變得稀疏、高效。
Pathways 能做的事,就是實現訓練一個模型,完成成千上萬件事情。
其核心原理在于稀疏計算,即在執行任務時僅稀疏激活模型的特定部分,計算真正有用的元素。
并且在該架構發布沒幾天後,谷歌就跟進了稀疏計算領域的另一項重要工作:發布基于 Pathways 架構的5400 億參數大模型 PaLM。
之後,谷歌還提出了首個多模态稀疏化模型 LIMoE,它在降低模型計算量上的優勢非常突出。
因爲采用了稀疏計算,可以實現執行一次任務隻調用模型中的一個子模型,那麽這次任務的成本将會和标準 Transformer 差不多。比如 LIMoE-H/14 總共有 5.6B 參數,但是通過稀疏化,它隻會使用每個 token 的 675M 參數。
就在今年 ChatGPT 大火後,稀疏化 GPT 方法也被提出,能夠實現不降低模型效果的情況下,将大模型權重降低一半。
除了在算法架構方面以外,硬件計算側對于稀疏化的關注也在提升。
比如英偉達就在其 Ampere 架構中首次支持 2 倍稀疏計算。
Ampere 架構爲英偉達 A 100 帶來了第三代 Tensor Core 核心,使其可以充分利用網絡權值下的細粒度稀疏化優勢。
相較于稠密數學計算(dense math),能夠在不犧牲深度學習矩陣乘法累加任務精度的情況下,将最大吞吐量提高了 2 倍。
以上大廠的動作,無疑都印證了稀疏計算會是大模型時代下 AI 計算的有效解之一。
由此也就不難理解,爲什麽墨芯會押中稀疏計算這一方向,并取得最新戰績。
一方面是很早洞察到了行業的發展趨勢;另一方面也是自身快速準确做出了定位和判斷。
墨芯創始人兼 CEO 王維表示,他們從 2018、2019 年就看到了稀疏計算給 AI 計算帶來了數量級上的性能提升。
與此同時,Transformers 開啓了大模型時代,讓 AI 從 1.0 時代步入 2.0,推動了 AI 在應用場景、算力需求等方面的改變。
尤其是算力方面,王維認爲已經産生了質變:
" 小模型時代,用場景數據訓練小模型,研發和部署周期短,對算力的需求主要是通用性、易用性。到了大模型時代,大模型主要基于 Transformers 模型架構,更追求計算速度和算力成本。"
而做稀疏計算,不隻是墨芯一家想到了,前面提到英偉達也在推進這方面進展,不過王維表示,這對于 GPU 公司而言可能是 " 意外收獲 ",但如果專注稀疏計算的話,需要做的是十倍甚至百倍加速。
因此,墨芯選擇的路線是從算法提升上升到軟硬協同層面。
2022 年,墨芯發布首顆高稀疏倍率芯片 Antoum Ⓡ,能夠支持32 倍稀疏,大幅降低大模型所需的計算量。
墨芯在 MLPerf 中開放分區的提交結果刷新記錄,也是對這一路線的進一步印證。
據透露,不僅在 MLPerf 上表現出色,墨芯的産品商業落地上也進展迅速。
墨芯 AI 計算卡發布數月就已實現量産,在互聯網等領域成單落地。ChatGPT 走紅後墨芯也收到大量客戶問詢,了解稀疏計算在大模型上的算力優勢與潛力。
如今,ChatGPT 開啓新一輪 AI 浪潮,大模型領域開啓競速賽、算力需求空前暴增。
如微軟爲訓練 ChatGPT 打造了一台超算——由上萬張英偉達 A100 芯片打造,甚至專門爲此調整了服務器架構,隻爲給 ChatGPT 和新必應 AI 提供更好的算力。還在 Azure 的 60 多個數據中心部署了幾十萬張 GPU,用于 ChatGPT 的推理。
畢竟,隻有充足的算力支持,才能推動模型更快叠代升級。
怪不得行業内有聲音說,這輪趨勢,英偉達當屬最大幕後赢家。
但與此同時,摩爾定律式微也是事實,單純堆硬件已經無法滿足當下算力需求,由此這也推動了算力行業迎來更新一輪機遇和變革。可以看到,近兩年并行計算等加速方案愈發火熱,這就是已經發生的變化。
而 ChatGPT 的火熱,無疑加速了這一變革。在真實需求的推動下,算力領域硬件軟件創新突破也會更快發生,模型會重新定義算法,算法會重新定義芯片。
你覺得呢?