我們爲最“in”大模型，找到了另外一條解題思路

"in"，是近年來興起的一個網絡用語，通常是 in fashion 的簡稱，意指走在潮流最前沿。

随着 GPT 的爆火，生成式 AI 正式進入全球科技舞台的中央，大模型也已經成爲當下最 "in" 的話題。

用 " 百模大戰 " 來形容當下大模型的火熱程度一點也不誇張。據目前市場已公布的大模型産品來看，10 億參數規模以上的大模型産品已多達 80 個。

一些企業更是将大模型視爲人工智能的核心，認爲這很可能是引領第四次工業革命的颠覆性創新技術，将推動各個行業的變革。

不過大模型已不再是你以爲的 " 大力出奇迹 "，它的發展正在迎來一些微妙的變化——

Smaller is Better。

這并非是無中生有，此話正是出自 HuggingFace 首席布道師 Julien Simon。

但縱觀大模型（尤其是大語言模型，以下簡稱爲：LLM）的發展，參數體量逐漸龐大似乎成爲了一種大趨勢，動辄便是千億甚至萬億的量級：

△圖源：Information is Beautiful（數據截至 2023 年 7 月 27 日）

那麽 Simon 如此 " 背道而馳 " 的觀點，又是從何而來？

我們都知道模型的參數體量越大，它們從大量非結構化數據中學習的表現通常就會越出衆，但随之而來的一個老大難問題便是需要大量的計算能力。

這也就是爲什麽現在人們談及大模型時，往往都繞不開" 大算力 "的原因。

（甚至連 OpenAI 的 CEO 也在爲算力發愁……）

因此，Simon 給出了新的解法，讓大模型 " 瘦身 "（Smaller）的同時還能提高效率（Better）。

并且這并非空口無憑，有測試數據爲證：

從結果上來看，測試的各種大模型有的被 " 瘦身 " 到了先前的一半，但效率反倒提了上來。

更直觀一點的，我們可以看下文本回答的效果：

△大模型 " 瘦身 " 後自然語言對話效果

這便是當下大模型很 "in" 的一種打開方式。

站在現在這個時間節點，我們也想以《最 "in" 大模型》專欄的形式，提供給大家兩個更 in 的解題思路：inside intel和in practice。以此來對大模型這個科技圈最 in 的頂流做一次全新角度的解析和展望。

最 Inside Intel 的創新解決方案

不僅僅是在這一波大模型熱潮，自深度學習爆火以來，似乎 GPU 相比其它硬件來說更受 AI 圈的青睐。

究其原因，無外乎以下幾點：

并行計算能力：GPU 可以同時進行大模型訓練和推理，加速計算過程。

加速訓練速度：在傳統 CPU 上進行大型模型訓練非常耗時，使用 GPU 可以縮短訓練時間，加速模型研究和開發。

适應深度學習計算：GPU 高度并行的架構在深度學習的計算中表現出色，特别适合處理神經網絡的計算需求。

但開發人員往往會小瞧 CPU 這個 " 潛力股 "。

沒錯，讓大模型發展發生微妙變化的解法之一，正是CPU！

例如在上文 Simon 的例子中，他先是用 SmoothQuant 這種訓練後量化的方法來爲 LLM" 瘦身 "：将 LLM 通常進行訓練的 16 位浮點參數（又名 FP16/BF16）替換爲 8 位整數，以便更容易執行任務，和減少需要的内存。

而後 Simon 選擇實驗的 CPU，正是英特爾的第四代至強 ®️ 可擴展處理器，其可在 AI 推理方面，爲大模型的落地部署提供更易獲取、應用門檻更低和性價比更高的平台。

但是，如果你還以爲英特爾隻有 CPU 能來跑 AI 的話，那就又錯了。

就在上個月，英特爾新鮮出爐了 AI 專用加速器—— Habana ®️ Gaudi ®️2，專爲訓練 LLM 而構建，并爲數據中心大規模擴展而設計，同時爲深度學習推理和訓練工作負載提供更具性價比的解決方案。

重點來了！

在 MLPerf 最新報告中的多種訓練和推理基準測試中，與其他面向大規模生成式 AI 和 LLM 的産品相比，Gaudi ®️2 擁有卓越的性能，甚至可以表現得比 GPU 更 " 專業 "。

據悉，預計今年 9 月 Gaudi ®️2 便可支持 FP8，在幫助用戶提升運營效率的同時，即将迎來更優的性價比：

客觀地說，相較于主流大模型硬件平台，CPU 雖更容易被獲取和部署，但其提供的解法仍會更傾向于那些要求部署和應用門檻盡可能低，同時性價比較高的推理場景；但英特爾已發布的 Gaudi ®️2 和即将登場的其他加速芯片，例如數據中心 GPU，則有望實現進一步的補全，進而形成 CPU 可在主打通用計算時兼顧 AI 加速，GPU 提供通用加速支持，即兼顧科學計算和 AI 加速，而 Gaudi ®️ 則能一心一意專攻深度學習加速的一整套異構硬件産品布局，這種布局的意義，就在于會提供更加多樣化、更具性價比的解決方案。

就更别提英特爾還會爲多種異構硬件産品搭配可以進行統一編程、輕松遷移并能跨異構調度算力資源的 oneAPI 軟件工具包了。

英特爾未來在 AI 或整個企業計算領域的異構多芯布局，已經在腳踏實地地走向現實。其對 CPU 和 AI 加速器等硬件的定向優化，也讓大模型出現了更多的可能性。

最 in practice 的落地實戰指南

當然，事實上相比于現有的主流大模型硬件平台，大家對英特爾硬件在大模型上的優化還缺乏了解。本期專欄就将直接上幹貨，爲你手把手帶來最 in practice 的實戰指南。

如上文中提到的利用第四代至強 ®️ 可擴展處理器對 LLM 進行訓練後量化的實驗，在本期專欄的第一篇文章中，甚至還直接附上了代碼：

△啓用增強型 SmoothQuant 的樣例代碼

是不是有一種 " 開箱即用 " 的味道了？

同時，本期專欄也非常與時俱進地會以 ChatGLM、BLOOMZ、PyTorch minGPT 主流大模型爲案例，step by step 教你實戰優化之道。

當然，面對實踐中可能會涉及的更加複雜的問題，我們也不僅局限于提供硬件加速指南，而是會考慮到更多維度，例如 LLM 如何與大數據平台進行對接，以及如何更好地進行數據安全或隐私方面的保護。

例如系列第二篇文章中提到的：将至強 CPU 平台内置的可信執行環境（Trusted Execution Environment，TEE）類技術——SGX 用于爲 LLM 提供隐私和數據保護創新解決方案，就可以更好地保障數據在 LLM 模型訓練和推理過程中的保密性。

最後一點，就像我們前文提到的，英特爾加速 AI 已經不再隻有 CPU 這一個選項，所以 Gaudi ®️2 雖然剛發布不久，但在本次專欄中也會露面，而且同樣是落在實戰層面，敬請期待。

專欄中涉及 CPU 的實戰分享，更多是希望幫到真正要在業務中落地應用 LLM 的最終用戶，畢竟想要在更爲廣泛的行業中普及 AI 應用，如能充分利用部署更爲廣泛的、基于 CPU 的 IT 基礎設施和架構，是更有利于達成降本增效的目标的。

期待這些分享能幫助更多部署了英特爾 ®️平台、對 LLM 躍躍欲試的用戶，能在第一時間開展相關的探索和實踐，讓大模型 Go to vertical + in practice。

小結

基于行業觀察、實戰案例，我們也會從中迸發出更多大模型加速的靈感。

如大模型 " 瘦身 " 提高效率，定然還會有更多更加優化的解決方案。英特爾爲此專門開設了 GitHub 問題反饋，希望與您共同探讨優化之道：https://github.com/intel/neural-compressor/issues

總而言之，英特爾采用多種處理器和加速器，并配以統一且易用的軟件工具來實現優化，已然是爲大模型的發展開辟了一條嶄新的路徑。

這背後的意義，正如 HuggingFace 的 Simon 所述：

一家獨大，從來不是一件好事。

言外之意很明顯了：多元化的蓬勃發展才是長久之道。

本次的《最 "in" 大模型》專欄，也許僅僅是一個通向多元化未來的開始。

歡迎關注專欄，也非常期待可以和大家深入探讨一波。