"in",是近年來興起的一個網絡用語,通常是 in fashion 的簡稱,意指走在潮流最前沿。
随着 GPT 的爆火,生成式 AI 正式進入全球科技舞台的中央,大模型也已經成爲當下最 "in" 的話題。
用 " 百模大戰 " 來形容當下大模型的火熱程度一點也不誇張。據目前市場已公布的大模型産品來看,10 億參數規模以上的大模型産品已多達 80 個。
一些企業更是将大模型視爲人工智能的核心,認爲這很可能是引領第四次工業革命的颠覆性創新技術,将推動各個行業的變革。
不過大模型已不再是你以爲的 " 大力出奇迹 ",它的發展正在迎來一些微妙的變化——
Smaller is Better。
這并非是無中生有,此話正是出自 HuggingFace 首席布道師 Julien Simon。
但縱觀大模型(尤其是大語言模型,以下簡稱爲:LLM)的發展,參數體量逐漸龐大似乎成爲了一種大趨勢,動辄便是千億甚至萬億的量級:
△圖源:Information is Beautiful(數據截至 2023 年 7 月 27 日)
那麽 Simon 如此 " 背道而馳 " 的觀點,又是從何而來?
我們都知道模型的參數體量越大,它們從大量非結構化數據中學習的表現通常就會越出衆,但随之而來的一個老大難問題便是需要大量的計算能力。
這也就是爲什麽現在人們談及大模型時,往往都繞不開" 大算力 "的原因。
(甚至連 OpenAI 的 CEO 也在爲算力發愁……)
因此,Simon 給出了新的解法,讓大模型 " 瘦身 "(Smaller)的同時還能提高效率(Better)。
并且這并非空口無憑,有測試數據爲證:
從結果上來看,測試的各種大模型有的被 " 瘦身 " 到了先前的一半,但效率反倒提了上來。
更直觀一點的,我們可以看下文本回答的效果:
△大模型 " 瘦身 " 後自然語言對話效果
這便是當下大模型很 "in" 的一種打開方式。
站在現在這個時間節點,我們也想以《最 "in" 大模型》專欄的形式,提供給大家兩個更 in 的解題思路:inside intel和in practice。以此來對大模型這個科技圈最 in 的頂流做一次全新角度的解析和展望。
最 Inside Intel 的創新解決方案
不僅僅是在這一波大模型熱潮,自深度學習爆火以來,似乎 GPU 相比其它硬件來說更受 AI 圈的青睐。
究其原因,無外乎以下幾點:
并行計算能力:GPU 可以同時進行大模型訓練和推理,加速計算過程。
加速訓練速度:在傳統 CPU 上進行大型模型訓練非常耗時,使用 GPU 可以縮短訓練時間,加速模型研究和開發。
适應深度學習計算:GPU 高度并行的架構在深度學習的計算中表現出色,特别适合處理神經網絡的計算需求。
但開發人員往往會小瞧 CPU 這個 " 潛力股 "。
沒錯,讓大模型發展發生微妙變化的解法之一,正是CPU!
例如在上文 Simon 的例子中,他先是用 SmoothQuant 這種訓練後量化的方法來爲 LLM" 瘦身 ":将 LLM 通常進行訓練的 16 位浮點參數(又名 FP16/BF16)替換爲 8 位整數,以便更容易執行任務,和減少需要的内存。
而後 Simon 選擇實驗的 CPU,正是英特爾的第四代至強 ®️ 可擴展處理器,其可在 AI 推理方面,爲大模型的落地部署提供更易獲取、應用門檻更低和性價比更高的平台。
但是,如果你還以爲英特爾隻有 CPU 能來跑 AI 的話,那就又錯了。
就在上個月,英特爾新鮮出爐了 AI 專用加速器—— Habana ®️ Gaudi ®️2,專爲訓練 LLM 而構建,并爲數據中心大規模擴展而設計,同時爲深度學習推理和訓練工作負載提供更具性價比的解決方案。
重點來了!
在 MLPerf 最新報告中的多種訓練和推理基準測試中,與其他面向大規模生成式 AI 和 LLM 的産品相比,Gaudi ®️2 擁有卓越的性能,甚至可以表現得比 GPU 更 " 專業 "。
據悉,預計今年 9 月 Gaudi ®️2 便可支持 FP8,在幫助用戶提升運營效率的同時,即将迎來更優的性價比:
客觀地說,相較于主流大模型硬件平台,CPU 雖更容易被獲取和部署,但其提供的解法仍會更傾向于那些要求部署和應用門檻盡可能低,同時性價比較高的推理場景;但英特爾已發布的 Gaudi ®️2 和即将登場的其他加速芯片,例如數據中心 GPU,則有望實現進一步的補全,進而形成 CPU 可在主打通用計算時兼顧 AI 加速,GPU 提供通用加速支持,即兼顧科學計算和 AI 加速,而 Gaudi ®️ 則能一心一意專攻深度學習加速的一整套異構硬件産品布局,這種布局的意義,就在于會提供更加多樣化、更具性價比的解決方案。
就更别提英特爾還會爲多種異構硬件産品搭配可以進行統一編程、輕松遷移并能跨異構調度算力資源的 oneAPI 軟件工具包了。
英特爾未來在 AI 或整個企業計算領域的異構多芯布局,已經在腳踏實地地走向現實。其對 CPU 和 AI 加速器等硬件的定向優化,也讓大模型出現了更多的可能性。
最 in practice 的落地實戰指南
當然,事實上相比于現有的主流大模型硬件平台,大家對英特爾硬件在大模型上的優化還缺乏了解。本期專欄就将直接上幹貨,爲你手把手帶來最 in practice 的實戰指南。
如上文中提到的利用第四代至強 ®️ 可擴展處理器對 LLM 進行訓練後量化的實驗,在本期專欄的第一篇文章中,甚至還直接附上了代碼:
△啓用增強型 SmoothQuant 的樣例代碼
是不是有一種 " 開箱即用 " 的味道了?
同時,本期專欄也非常與時俱進地會以 ChatGLM、BLOOMZ、PyTorch minGPT 主流大模型爲案例,step by step 教你實戰優化之道。
當然,面對實踐中可能會涉及的更加複雜的問題,我們也不僅局限于提供硬件加速指南,而是會考慮到更多維度,例如 LLM 如何與大數據平台進行對接,以及如何更好地進行數據安全或隐私方面的保護。
例如系列第二篇文章中提到的:将至強 CPU 平台内置的可信執行環境(Trusted Execution Environment,TEE)類技術——SGX 用于爲 LLM 提供隐私和數據保護創新解決方案,就可以更好地保障數據在 LLM 模型訓練和推理過程中的保密性。
最後一點,就像我們前文提到的,英特爾加速 AI 已經不再隻有 CPU 這一個選項,所以 Gaudi ®️2 雖然剛發布不久,但在本次專欄中也會露面,而且同樣是落在實戰層面,敬請期待。
專欄中涉及 CPU 的實戰分享,更多是希望幫到真正要在業務中落地應用 LLM 的最終用戶,畢竟想要在更爲廣泛的行業中普及 AI 應用,如能充分利用部署更爲廣泛的、基于 CPU 的 IT 基礎設施和架構,是更有利于達成降本增效的目标的。
期待這些分享能幫助更多部署了英特爾 ®️平台、對 LLM 躍躍欲試的用戶,能在第一時間開展相關的探索和實踐,讓大模型 Go to vertical + in practice。
小結
基于行業觀察、實戰案例,我們也會從中迸發出更多大模型加速的靈感。
如大模型 " 瘦身 " 提高效率,定然還會有更多更加優化的解決方案。英特爾爲此專門開設了 GitHub 問題反饋,希望與您共同探讨優化之道:https://github.com/intel/neural-compressor/issues
總而言之,英特爾采用多種處理器和加速器,并配以統一且易用的軟件工具來實現優化,已然是爲大模型的發展開辟了一條嶄新的路徑。
這背後的意義,正如 HuggingFace 的 Simon 所述:
一家獨大,從來不是一件好事。
言外之意很明顯了:多元化的蓬勃發展才是長久之道。
本次的《最 "in" 大模型》專欄,也許僅僅是一個通向多元化未來的開始。
歡迎關注專欄,也非常期待可以和大家深入探讨一波。