什麽樣的技術能經曆時間洗禮還曆久彌新?
答案或許可以歸總爲一個 " 三部曲 " 般的規律——興起、發展和大規模應用,外加這個過程再一次演進式的叠代。
以史爲鑒,引領第一次工業革命的是蒸汽機,當它演進成爲内燃機并開始普及時,第二次工業革命的颠覆者——電能本身以及與它相關的各種設備正處于初創期,而在電力設備走向微電子的叠代革新時,各種燃油引擎還在持續改良和普及中。
從這個規律來看,大語言模型(簡稱 LLM)出現後雖然霸占了所有與 AI 相關的關鍵詞,吸引了所有人的注意力,但這并不代表 "LLM 之前無 AI"。
在大模型出盡風頭的同時,此前以決策爲特長的老一代機器學習應用,以及側重感知能力的 " 傳統 " 深度學習應用也沒閑着,它們正走過喧嚣的青春期,步入穩紮穩打的實戰階段。
何以爲證?
某芯片大廠就推出了一連串的 AI 實戰手冊,分别鎖定制造與能源、醫藥、金融、交通與物流,以及教育行業的 AI 實踐。
在今年更新的物流交通和醫療健康 AI 實戰手冊中,就記錄了很多已經或正在落地的 AI 應用,及如何将它們順利部署和充分釋放其性能加速潛力,當然還有它們在一些耳熟能詳的頭部企業深入一線的應用實例。
所以,AI 不是隻有大模型。AI 的大模型時代也 ≠ 隻有大模型的 AI 時代。
成熟的 AI,早就已經上崗了
或許你還不敢相信,現在哪怕小小的快遞背後,都已經有 AI 技術在加持了。
沒錯,而且近乎涉足了物流全流程:下單、發貨、分揀、轉運、配送…… AI 現在統統都要 " 管一管 "。
以經典的OCR(光學字符識别)技術爲例,它在物流 " 技術界 " 的地位可謂是舉足輕重,大幅提高了工作效率。
比如發貨時的寄件人填報地址、身份信息,電商倉庫核對出貨的貨品信息,都可以借助 OCR," 啪地一下 ",實現一鍵錄入。
随着 AI 技術的愈發完善和應用的加深,這種速度做到了 " 沒有最快隻有更快 "。
我們熟知的韻達快遞就是如此,在三段碼 OCR 識别過程中,它原本希望 AI 能将 OCR 識别的準确率達到 95%。
結果現在的 AI 卻給韻達 " 上了一課 ",不僅準确率直接飙到接近 98%,甚至時間也給 " 打了下去 ":從 130ms 降至 114ms。
△性能測試結果基于韻達于 2022 年 10 月進行的測試
而且 OCR 識别還僅僅是 AI 涉足物流行業的小小一隅,一張圖來看感受下它現在所起到的 power:
嗯,AI 如此 all in,怪不得國内物流的速度都要起飛了呢。
不過朋友,這還僅僅是 AI 加速千行百業的一個案例,其實我們現在每天的出行,同樣也是充斥着 AI 的 " 味道 "。
例如 AI 視頻分析技術,可以針對高速公路上的路況做到實時地分析。
不論是車流流量監控、車輛車牌識别,亦或是事故預警等等,AI 可謂是将一切盡收眼底。
如此一來,便可以有效且精準地對路面狀況做到把控。
再如機場,在 AI 技術加持下的攝像頭,也可以細粒度識别航空器、車輛、人員,以及違邊等情況,這樣便對飛行區域的安全提供了一定的保障。
……
從以上幾個小小用例中不難看出," 成熟 " 的 AI,或者說幾年前那些當紅明星類的 AI 應用看似風光不在,但它們實則已深入到我們生活中的方方面面,并且主打的就是一個 " 節支增效 "。
那麽如此 " 節支增效 " 背後,到底是怎麽做到的?
不賣關子,直接上答案——
提供幫助的正是英特爾的平台,特别是至強 ®️ 可擴展處理器。同樣,我們前文所指的某芯片大廠也是英特爾,給出多個行業 AI 實戰手冊的還是它。
但解鎖如此能力的,可不僅僅是一顆 CPU 這麽簡單,而是有英特爾軟件層面上的優化加成;換言之,就是" 軟硬一體 "後的結果。
簡單歸結:至強 ®️ 可擴展處理器及其内置的 AI 加速器,以及 OpenVINO ™️ ,oneAPI 等一系列 AI 框架和優化軟件打輔助。
當前影響 AI 應用性能的要素無非兩個:算力和數據訪問速度。
目前最新的第四代至強 ®️ 可擴展處理器的單顆 CPU 核數已經增長到最高 60 核。而在數據訪問速度上,各級緩存大小、内存通道數、内存訪問速度等都有一定程度的優化,另外在CPU Max 系列中還集成了HBM 高帶寬内存技術。
此外,在 CPU 指令集上也做了優化,内置了英特爾 ®️ 高級矩陣擴展(英特爾 ®️ AMX)等硬件加速器,負責矩陣計算,加速深度學習工作負載,堪稱 CPU 加速 AI 應用的 C 位。
它有點類似于 GPU 裏的張量核心(Tensor Core)。
AMX 由兩部分組成,一部分是 1kb 大小的 2D 寄存器文件,另一部分是 TMUL 模塊,用來執行矩陣乘法指令。它可同時支持 INT8 和 BF16 數據類型,且 BF16 相較于 FP32 計算性能更優。
有了 AMX 指令集加持,性能比前一代至強 ®️ 可擴展處理器内置的矢量神經網絡指令集 VNNI 提升達 8 倍,甚至更高。
除了核心硬件平台外,實際情況中幫助這些行業實戰 AI 應用落地的,還有一系列英特爾 " 親生 " 但不 " 私享 " 的 AI 軟件工具。
例如前面提到的 OCR 加速就離不開OpenVINO ™️ 的優化,它删減了很多訓練部分所需的冗餘計算,主要支持推理部分。
而且也是專門針對英特爾硬件打造的優化框架,隻需 5 行代碼就可以完成原有框架的替換。
用戶可以針對不同業務場景,來優化 OpenVINO ™️ 運行參數。
這樣一套軟硬件組合拳打下來,英特爾不僅充分釋放了 CPU 計算潛力,而且在實際的推理場景中也實現了近乎 GPU 的性能,同時還有成本低、門檻低、易上手等附加優勢。
然而,這些僅僅是已經成熟上崗的 AI 技術在英特爾 ®️ 平台得到的優化,英特爾的能力還遠不止如此。
這就要說回大模型了。
當紅大模型,也在被加速
目前大語言模型正被全球各大科技公司競相追逐,畢竟現在科技圈都将它視爲未來發展的趨勢所在。
雖然相比那些成熟的 AI 技術和應用,它距大規模落地還有段距離,但其技術領先性不容置疑,乃至 " 老一輩 " 的 AI 應用也有望在與它結合,或被它改造後重煥新生。
英特爾作爲基礎算力輸出者和應用性能加速器,同樣在這場你追我趕的競技場中未雨綢缪,早有布局。
首先,大模型再先進,也需要有更多人用上它,才可充分變現其價值。要想 " 玩轉 " 它,在其龐大的體量面前,成本便是一個老大難的問題。
因此,英特爾就祭出了一款增強型的 " 減(量)重(化)神(工)器(具)",,增強其準确性,還能有效地提升大模型在英特爾 ®️ 平台上的推理性能。
具體而言,所用到的是 SmoothQuant 技術,英特爾将其适配到自己的平台,并實現其增強。此方法已經整合至英特爾 ®️ Neural Compressor。這是一個包含量化、剪枝(稀疏性)、蒸餾(知識提煉)和神經架構搜索等多種常用模型壓縮技術的開源 Python 庫,它已經支持多款英特爾 ®️ 架構的硬件,并且已經兼容 TensorFlow、PyTorch、ONNX Runtime 和 MXNet 等主流框架。
其次,在硬件層面上,英特爾也有所發力。
例如最近大火的 ChatGLM-6B,其借助第四代至強 ®️ 可擴展處理器内置的英特爾 ®️ AMX,;利用至強 ®️ CPU Max 系列處理器集成的 HBM,滿足大模型微調所需的大内存帶寬。
△英特爾 ® AMX 技術架構
除了 CPU,英特爾還有專用的深度學習加速芯片Habana ®️ Gaudi ®️2 ,其能在單個服務器内部署 8 張加速卡(稱爲 Habana 處理單元,即 Habana Processing Unit,簡稱爲 HPU),每張卡内存高達 96 GB,可提供足夠的空間來容納大模型。
因此即使是 BLOOMZ 這樣擁有 1760 億參數的千億級大語言模型,。對于參數量爲 70 億的較小模型 BLOOMZ-7B,在 Gaudi ®️2 的單設備時延約爲第一代 Gaudi ®️ 的 37.21%;而當設備數量都增加爲 8 後,這一百分比進一步下降至約 24.33%。
△BLOOMZ 在 Gaudi ®️2 和第一代 Gaudi ®️ 上的推理時延測試結果
而後在軟件層面上,針對像 ChatGLM 這樣大受歡迎的大語言模型,:壓縮權重以降低内存帶寬使用率,提升推理速度。
這便是英特爾 " 軟硬一體 " 打法在大模型應用上的直接體現了。而且硬件還不再僅限于 CPU,更是有可在訓練和推理性能上都可與 GPU 比肩,在性價比上饞哭大家的 Gaudi ®️ 。
最後在安全方面,英特爾也是做到了 " 魚與熊掌兼得 ":,還不需要拿性能做交換。
這便是英特爾在 AI 大模型時代中的 " 加速之道 " 了。
還會帶來怎樣的變革?
縱觀 AI 技術的發展之路,不難發現英特爾在其中履行着一條非常清晰的準則——用起來才是硬道理。甚至隻在數據中心和邊緣中用都不夠,最好每個人的每台電腦,每個信息終端設備都有獨立加速 AI 應用的能力才能 " 芯 " 滿意足。
因此英特爾已将創新使命調整爲:在各種硬件産品中加入 AI 能力,并通過開放、多架構的軟件解決方案,推動 AI 應用的普及,促進 " 芯經濟 " 的崛起。
英特爾的 " 加速之道 " 不僅是讓技術更快落地和普及,更是要以用促用,以用促新,以用促變,爲下一世代的技術變革埋下伏筆。
那麽英特爾這條路上是否有一個終極目标?
或許正如Intel Innovation 2023上不斷重複和強調的:
讓 AI 無處不在 ( AI Everywhere ) 。
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~