經典技術OCR(光學字符識别),在大模型時代下要 " 變味 " 了。
怎麽說?
我們都知道 OCR 這個技術在日常生活中已經普及開了,像各類文件、身份證、路标等識别,可以說統統都離不開它。
而随着近幾年大模型的不斷發展,OCR 也迎來了它的" 新生機 "——
憑借自身可以将文本從圖片、掃描文檔或其他圖像形式提取出來的看家本領,成爲大語言模型的一個重要入口。
在這個過程中,一個關鍵問題便是" 好用才是硬道理 "。
過去人們會普遍認爲,像 OCR 這種涉及圖像預處理、字符分割、特征提取等步驟的技術,堆 GPU 肯定是首選嘛。
不過朋友,有沒有想過成本和部署的問題?還有一些場景甚至連 GPU 資源都沒得可用的問題?
這時又有朋友要說了,那 CPU 也不見得很好用啊。
不不不。
現在,大模型時代之下,CPU 或許還真是 OCR 落地的一種新解法。
例如在醫保 AI 業務中,在 CPU 的加持之下,醫療票據識别任務的響應延時指标,在原有基礎上提升達25 倍!
△數據來源:英特爾合作夥伴
爲什麽會有如此大的轉變?
一言蔽之,因爲此前做 OCR 任務的時候,CPU 的計算潛能并沒有完全釋放出來。
OCR,進入 CPU 時代
那麽到底是誰家的 CPU,能讓經典 OCR 産生這般變化。
不賣關子。
它正是來自英特爾的第四代至強®️ 可擴展處理器。
據了解,第四代至強可擴展處理器增加了每個時鍾周期的指令,每個插槽多達 60 個核心,支持 8 通道 DDR5 内存。
在内存寬帶方面實現了 50% 的性能提升,并通過每 PCIe 5.0(80 個通道)實現了 2 倍的 PCIe 帶寬提升,整體可實現 60% 的代際性能提升。
但解鎖如此能力的,可不僅僅是一顆 CPU 這麽簡單,是加成了英特爾軟件層面上的優化;換言之,就是 " 軟硬一體 " 後的結果。
而且這種打法也不是停留在 PPT 階段,而是已經實際用起來的那種。
例如國内廠商用友便在自家 OCR 業務中采用了這種方案。
性能比較上,用友在第三 / 第四代英特爾 ®️ 至強 ®️ 可擴展處理器上進行了算法對比,推理性能提升達優化前的3.42 倍:
而在 INT8 量化後的性能更是提升到原來的7.3 倍:
值得一提的是,OCR 的響應時間直接降低到了 3 秒以内,還是切換架構不影響業務,用戶無感知的那種。
除了用友之外,像亞信科技在自家 OCR-AIRPA 方案中,也是采用了英特爾的這套打法。
與用友類似的,亞信科技實現了從 FP32 到 INT8/BF16 的量化,從而在可接受的精度損失下,增加吞吐量并加速推理。
從結果上來看,相比傳統人工方式,成本降到了 1/5 到 1/9 之間,而且效率還提升了 5-10 倍。
由此可見,釋放了 AI 加速 " 洪荒之力 " 的 CPU,在 OCR 任務上完全不亞于傳統 GPU 的方案。
那麽問題來了:
英特爾是如何釋放 CPU 計算潛力的?
實際應用過程中,企業通常選擇自己使用 CPU 來做 OCR 處理,但由于缺乏對 CPU 硬件加速和指令集的了解,就會發現 CPU 處理性能與理想峰值相差甚遠,OCR 程序也就沒有得到很好的優化。
至于以往更常見的 GPU 解決方案,始終存在着成本和部署的難題。一來成本通常較高,且很多情況下,業務現場沒有 GPU 資源可以使用。
但要知道 OCR 本身應用廣泛、部署場景多樣,比如公有雲、私有雲,以及邊緣設備、終端設備上……而且随着大模型時代的到來,作爲重要入口的 OCR,更多潛在場景将被挖掘。
于是,一種性價比高、硬件适配性強的解決方案成爲行業剛需。
既然如此,英特爾又是如何解決這一痛點的呢?
簡單歸結:第四代至強®️ 可擴展處理器及其内置的 AI 加速器,以及 OpenVINO ™️ 推理框架打輔助。
當前影響 AI 應用性能的要素無非兩個:算力和數據訪問速度。第四代至強 ®️ 可擴展處理器的單顆 CPU 核數已經增長到最高 60 核。
而在數據訪問速度上,各級緩存大小、内存通道數、内存訪問速度等都有一定程度的優化,另外部分型号還集成了 HBM 高帶寬内存技術。
此外,在 CPU 指令集上也做了優化,内置了英特爾 ®️ 高級矩陣擴展(英特爾 ®️ AMX)等硬件加速器,負責矩陣計算,加速深度學習工作負載。
這有點類似于 GPU 裏的張量核心(Tensor Core)。
AMX 由兩部分組成,一部分是 1kb 大小的 2D 寄存器文件,另一部分是 TMUL 模塊,用來執行矩陣乘法指令。
它可同時支持 INT8 和 BF16 數據類型,且 BF16 相較于 FP32 計算性能更優。
有了 AMX 指令集加持,性能比矢量神經網絡指令集 VNNI 提升達 8 倍。
除了核心硬件平台外,實際情況中幫助 OCR 在 CPU 上落地的,還有推理框架OpenVINO ™️ 。
市面上大部分 AI 框架都是同時支持訓練和推理,OpenVINO ™️ 則是删減了很多訓練部分所需的冗餘計算,主要支持推理部分。
而且也是專門針對英特爾硬件打造的優化框架。框架替換也不複雜,隻需 5 行代碼就可以完成原有框架的替換。
用戶可以針對不同業務場景,來優化OpenVINO ™️ 運行參數。
比如用友 OCR 業務涉及文字檢測和文字識别兩個 AI 模型,優化方向有所不同。
前者對單次推理要求高,後者需要整個系統吞吐量的優化,那麽 OpenVINO ™️ 分别采用單路同步模式和多路異步模式。單一模塊優化後,再針對整體流程的優化。
這樣一套軟硬件組合拳打下來,英特爾充分釋放了 CPU 計算潛力,在實際場景中也實現了與 GPU 同等性能。
不再是你以爲的 CPU
以往談到 AI 加速、AI 算力,大衆經常想到的就是 GPU,又或者是專用 TPU。
至于通用架構芯片 CPU,受到計算單元和内存帶寬的限制,始終無法适應于計算數據龐大的深度學習。
但現在的 CPU,已經不再是 " 你以爲的你以爲 " 了:
它可以深入到各個行業當中,輕松 Hold 住各種場景應用。
尤其在 AMX 加速引擎加持下,能将深度學習訓練和推理性能提升高達 10 倍。
比如,媒體娛樂場景中,能幫助個性化内容推薦速度提升達 6.3 倍;零售行業裏,能将視頻分析速度提升高達至 2.3 倍,還有像工業缺陷檢測、醫療服務也都能從容應對。
即便是在前沿探索領域,CPU 也已經成爲不容忽視的存在:
像是在生命科學和醫藥方向,在某些場景下的表現效果甚至比 GPU 還要好。
英特爾用 CPU 速刷 AlphaFold2,結果力壓 AI 專用加速芯片,去年發布的第三代至強 ®️ 可擴展處理器經過優化後就能使其端到端的通量足足提升到了原來的 23.11 倍。今年基于第四代至強 ®️ 可擴展處理器再次把性能提升到了上一代産品的 3.02 倍。
不過要實現 CPU 加速,背後也并非簡單的硬件優化。
而是軟硬件融合協同,從底層到應用的一整套技術創新,以及産業鏈上合作夥伴的支撐。
随着大模型時代的到來和深入,這種解決思路也正在成爲共識。
像一些大模型玩家要實現大模型優化和叠代,并不能依靠以往單純三駕馬車來解決,而是需要從底層芯片到模型部署端到端的系統優化。
在算力加速層面的玩家,一方面擺脫不了摩爾定律的極限,另一方面要在應用場景中充分釋放計算潛力,就需要與軟件适配快速部署。
有意思的是,在最近 OCR 主題的《至強實戰課》中,英特爾人工智能軟件架構師桂晟曾這樣形容英特爾的定位:
英特爾不僅僅是一個硬件公司,同時也擁有着龐大的軟件團隊。
在整個人工智能生态中,不論是從底層的計算庫,到中間的各類組件,框架和中間件,再到上層的應用,服務和解決方案都有英特爾軟件工程師的參與。
CPU 加速,不再是你以爲的加速。英特爾,也不再是以往所認知中的硬件公司。
但如果你以爲英特爾隻有 CPU 來加速 AI,那你又單純了。
針對 AI 的專用加速芯片 Habana ®️ Gaudi 2 ®️ 即将迎來首秀;而通用加速芯片,同時兼顧科學計算和 AI 加速的英特爾 ®️ 數據中心 GPU Max 系列也剛剛結束了它在阿貢實驗室 Aurora 系統中的部署,即将走近更多客戶。
以這些多樣化、異構的芯片爲基石,英特爾也将形成更全面的硬件産品布局,并配之以跨異構平台、易用的軟件工具組合(oneAPI)爲整個應用鏈上的合作夥伴及客戶提供應用創新的支持,爲各行各業 AI 應用的開發、部署、優化和普及提供全方位支持。