過去一年,生成式 AI 賽道持續火熱,到今天,"All in AI" 已經成爲幾乎所有科技企業的共識,互聯網企業在用 AI 重新打造業務和軟件,終端廠商在用 AI 重塑産品,搶灘 "AI 手機 "、"AI PC",上遊的芯片和解決方案提供商,則也在用 AI 重新定義芯片。
在此背景下,作爲很早就在底層芯片技術層面布局終端側 AI 的高通,最近發布了《通過 NPU 和異構計算開啓終端側生成式 AI》白皮書。在這份白皮書中,高通詳細解讀了在生成式 AI 需求愈發旺盛的趨勢下,他們是如何利用 NPU 和異構計算,開啓終端側的豐富生成式 AI 用例的。
異構計算滿足生成式 AI 的多樣化需求
具體來說,高通的異構計算引擎也就是高通 AI 引擎,包含不同的處理器組件,分别是 CPU、GPU、NPU 以及高通傳感器中樞等,他們共同協作以打造出色的體驗,而在每一代産品上,高通都會不斷升級上述所有組件的能力。
這其中,不同的處理器組件扮演不同的角色,各有擅長的處理任務。
CPU 擅長順序控制,非常适用于需要低時延的應用場景,因此高通會在對時延要求非常高的用例中使用 CPU。CPU 也适用于相對較小的傳統模型,如卷積神經網絡模型(CNN),或一些特定的大語言模型(LLM)。
此外 CPU 能力還取決于特定的産品類型。如果是傳統的 PC 芯片,其 CPU 功能會十分強大;如果是車用芯片,則會更加注重 NPU 能力。
GPU 相信大家也比較清楚,主要擅長面向高精度格式的并行處理,比如對畫質要求非常高的圖像以及視頻處理。
而 NPU,則主要是在持續型用例中,需要以低功耗實現持續穩定的高峰值性能,可以發揮其最大優勢。
在基于 LLM 和大視覺模型(LVM)的不同用例,例如 Stable Diffusion 或其他擴散模型中,NPU 的每瓦特性能表現會十分出色。
高通表示,選擇合适的處理器處理相關任務至關重要,但同時也要關注 SoC 整體的工作負載情況。例如你在玩一款重負載遊戲,此時 GPU 會被完全占用,而如果是在浏覽多個網頁,CPU 可能會占用過高,此時 NPU 作爲真正的 AI 專用引擎就會體現出非常大的優勢,能夠确保我們在 AI 用例中獲得出色體驗。
Hexagon NPU 的過去,現在和未來
高通 AI 引擎中的 NPU,就是我們熟知的 Hexagon NPU,它擁有強大的差異化優勢和業界領先的 AI 處理能力。
Hexagon NPU 的發展,也是一個長期演進,循序漸進的過程。
高通在 2015 年推出的第一代 AI 引擎時,其 Hexagon NPU 主要集成了标量和向量運算擴展,2016-2022 年之間,高通則将研究方向拓展至 AI 影像和視頻處理,以實現增強的影像能力,同時他們還在這一時期引入 Transforme 層處理,并且在 NPU 中增加了張量運算核心(Tensor Core)。
從 2023 年開始,Hexagon NPU 實現了對 LLM 和 LVM 的支持,高通在 NPU 中增加了 Transformer 支持,以更好地處理基于 Transformer 的模型。現在,Hexagon NPU 能夠在終端側運行高達 100 億參數的模型,無論是首個 token 的生成速度還是每秒生成 token 的速率,都處在業界領先水平。
此外,高通還引入了微切片推理技術,增加了能夠支持所有引擎組件的大共享内存,以實現領先的 LLM 處理能力。
而接下來,Hexagon NPU 則會朝着對模态生成式 AI 的方向努力,比如在最近的 MWC 2024 上,高通展示了在終端上運行的多模态生成式 AI 模型,具體來說,是在第三代骁龍 8 上運行的首個大語言和視覺助理大模型(LLaVA),其能夠基于圖像輸入解答用戶的相關問題。這将爲終端産品帶來全新的能力,例如視障人士或将能夠借助這樣的功能在城市内進行導航,通過将圖像信息轉換成音頻或語音,使得他們能夠了解周圍的事物。
同時,高通還在 MWC 上展示了基于骁龍 X Elite 計算平台、全球首個在終端側運行的超過 70 億參數的大型多模态語言模型(LMM),可接受文本和音頻輸入(如音樂、交通環境音頻等),并基于音頻内容生成多輪對話。
這也正是高通所寄予希望的未來發展方向,終端側将能夠處理豐富的感官信息,爲用戶帶來完整的體驗。
NPU 加持的異構計算,是這樣完成 AI 應用需求的
接下來,高通更進一步,解讀了骁龍 Hexagon NPU 以及 AI 引擎整體的異構計算,是如何在具體的 AI 用例中工作、運行的。
在解讀中,他們以第三代骁龍 8 移動平台爲例,在該平台中全新的 Hexagon NPU 擁有 98% 的張量運算核心的峰值性能提升,同時标量和向量運算性能也得到了提升,并在 NPU 中集成了用于圖像處理的分割網絡(Segmentation Network)模塊。
同時高通還增加了面向 AI 處理中非線性功能的硬件加速能力。憑借微切片推理技術,可以把一個神經網絡層分割成多個小切片,可以在最多十層的深度上做融合,而市面上的其他 AI 引擎則必須要逐層進行推理。
此外,第三代骁龍 8 的 Hexagon NPU 還擁有大共享内存,提供加速器專用電源傳輸軌道,也爲大共享内存帶來更大的帶寬。
基于上述性能提升,高通打造了面向生成式 AI 處理的行業領先 NPU。
在具體用例中,高通以 AI 旅行助手爲例,用戶可以直接對模型提出規劃旅遊行程的需求。AI 助手能夠立刻給到航班行程建議,并與用戶進行語音對話調整行程,最後通過 Skyscanner 插件創建完整航班日程,給用戶帶來一步到位的使用體驗。
在這個過程中,首先,用戶的語音輸入需要通過自動語音識别(ASR)模型 Whisper 轉化爲文本,Whisper 是 OpenAI 發布的一個約 2.4 億參數的模型,它主要在高通傳感器中樞上運行。
接下來利用 Llama 2 或百川大語言模型基于文本内容生成文本回複,這一模型在 Hexagon NPU 上運行。之後需要通過在 CPU 上運行的開源 TTS(Text to Speech)模型将文本轉化爲語音。
最後,通過高通的調制解調器技術進行網絡連接,使用 Skyscanner 插件完成訂票操作。這一流程展示了如何通過選擇合适的處理器進行異構計算,并最終形成完整的使用體驗。
在上述所有的硬件 AI 能力之上,高通還打造了高通 AI 軟件棧(Qualcomm AI Stack)。它能夠支持目前所有的主流 AI 框架,包括 TensorFlow、PyTorch、ONNX、Keras;它還支持所有主流的 AI runtime,包括 DirectML、TFLite、ONNX Runtime、ExecuTorch,以及支持不同的編譯器、數學庫等 AI 工具。
此外他們還推出了 Qualcomm AI studio,爲開發者提供開發過程中需要用到的相關工具,其中包括支持模型量化和壓縮的高通 AI 模型增效工具包(AIMET),能夠讓模型運行更加高效。高通 AI 軟件棧是當前邊緣側的業界領先解決方案。
正是基于高通 AI 軟件棧和核心硬件 IP,高通才能跨過所有不同産品線,将應用規模化擴展到不同類型的終端,從智能手機到 PC、物聯網終端、汽車等等。這無疑爲其合作夥伴以及用戶帶來顯著優勢,開發一次就能覆蓋高通不同芯片組解決方案的不同産品和細分領域進行部署。
總體來說,通過這份生成式 AI 的白皮書,我們能夠看到高通在終端側生成式 AI 的全鏈路部署、Hexagon NPU 在終端側生成式 AI 方面展現出的領先實力及其背後豐富的技術細節。可以說,利用多種處理器進行異構計算,特别是 NPU 的表現,對于實現生成式 AI 應用最佳性能和能效至關重要,同時,終端側 AI 正成爲全行業關注的焦點,其在成本、能效、可靠性、安全性等方面的優勢都可以成爲雲端 AI 的絕佳拍檔,而高通在終端側生成式 AI 方面已經有着多年的積累,并展現出領先的技術領導力和出色的生态系統建設成果,相信他們能夠在未來持續通過産品技術和生态合作,真正賦能終端側生成式 AI 的規模化擴展。