打開攝像頭界面,演示人員拍攝了一張眼前風景的圖片。在相冊中,找到這張圖片,選擇「擴充」功能,結果本來照片沒有拍到的外圍部分,被神奇地「擴充」到了外圍。
另一邊,一台手機仿佛是用來給參觀者自拍的,進入到它的前置攝像頭區域,你會發現,畫面中人物影像的背景被實時替換了,即便自拍者不斷動作,虛拟背景也沒有穿幫,幾乎感受不到延遲。
實時修改自拍背景演示|極客公園
而如果稍微仔細一些,你會發現這些用來演示的手機全部開啓了飛行模式——也就是說,上述這些複雜功能,全部跑在手機本地芯片上。
這是 2023 高通骁龍峰會的 Demo 體驗館,而上述手機演示的 AI 功能,全部仰仗于機器内部、剛剛在會上曝光的骁龍 8 Gen 3 (第三代骁龍 8)處理器芯片的算力。
在 AI 大模型火爆的當下,高通在今年的發布會上發布的兩款新品,骁龍 X Elite 和骁龍 8 Gen 3 芯片,分别在 PC 和智能手機代表的移動設備上,實現了百億參數大模型的本地運行,讓生成式 AI 的神奇能力,成爲移動設備的「内置功能」。
在「雲端 AI」之外,借助芯片的高速發展,「終端 AI」已經實現,而二者協同的「混合 AI」的時代,可能已經到來。
AI,從數據中心到手機和 PC
「我們剛剛見證了下一個轉型的開始,而它的深遠意義。」
高通公司總裁兼 CEO,克裏斯蒂亞諾 · 安蒙 Cristiano Amon 在描述了手機從功能機到智能機,再到未來時,對終端和雲端結合的「混合式 AI」,做出了這樣的預言。
安蒙在高通骁龍峰會上闡述「終端 AI」時代已經到來|極客公園
在雲端的 AI,例如現在諸多的生成式 AI 對話應用可能已經不陌生,但是終端 AI 的實現,對于硬件的要求很高,這也是爲什麽當天高通發布會上的兩款全新芯片——骁龍 X Elite 和骁龍 8 Gen 3 格外引人注意。
也許當天最刺激的,是骁龍 X Elite 所搭載的 Oryon CPU 在單線程上的性能不僅秒殺蘋果公司自傲的 M2 MAX 芯片,和英特爾的 i9-13980HX,而且在同等性能上的能耗比後者降低了 70%。
更重要的是,強勁的 Oryon CPU、Hexagon NPU,以及 Adreno GPU,在 X Elite 異構的 AI 引擎加持下,三塊處理器單元能夠實現整體 75 TOPs 的算力。
超強的算力,讓之前隻能在雲端獲得的生成式 AI 對話體驗,可以成功在搭載了骁龍 X Elite 芯片的電腦本地環境中——最高可以在 PC 端運行高達 130 億參數的大語言模型,Token 生成速度達到每秒 30 個,快到超過用戶的閱讀速度;同時,使用 Stable Diffusion 生成圖片速度達到驚人的少于 1 秒。
新推出的 Oryon CPU 速度和能耗吊打友商|極客公園
在現場,當你用手指點擊生成按鈕,圖片可以在瞬間完成時,體驗令人驚奇,因爲人們早已習慣了等待生成式對話産生圖片,從模糊到清晰那漫長的時間。
作爲智能手機芯片旗艦産品,骁龍 8 Gen 3 的實力與 X Elite 相比也不遑多讓,在 AI 方面,不僅本地能跑起百億參數大模型,同時生成圖片速度同樣達到了短短 0.6 秒。
僅僅在今年第一季度,高通的演示僅能在本地跑的動 10 億參數大模型,生成圖片速度控制在 15 秒。高通使用了什麽「魔法」,能讓「終端 AI」取得大跨越發展?
以骁龍 8 Gen 3 爲例,首先高通将 Llama 2 這樣的大模型量化,使用 AI 軟件棧進行壓縮,将量化模型加載到超高速 DDR 内存之中,後者可以用超快吞吐量将模型輸入到 Hexagon NPU 進行工作。
高通的 AI 引擎專門針對 AI 進行了優化|極客公園
高通對微架構進行了重大改進。除升級微切片推理硬件外,團隊還爲張量加速器增加了獨立的電源傳輸軌道,以實現最佳性能和能效。同時,高通還提高了标量和矢量加速器的時鍾速度,并将大型共享内存的帶寬增加了一倍。Hexagon NPU 的這些改進,使其成爲大模型推理的領先加速器。
在語音式生成對話中,高通還使用了一種「推測性解碼」技術,後者也是首次在終端上使用。該技術使用幾乎隻有原模型一半大小的「草稿模型」算法,首先在 CPU 上進行大量推理後,快速生成 3 個推測性 Token。
主模型一次性處理所有 3 個标記,并決定接受哪一個。一個好的草稿模型能以較高的接受率預測下一個 Token,從而使 Token 生成速度翻倍,同時保持準确性。最後,AI 助手生成的語音要經過 CPU 上運行的文本到語音 AI 模型而生成。
這是高通 AI 引擎,也就是 NPU,再加上 CPU、GPU、高通傳感器中樞和超快内存共同協作完成了一次終端側 AI 使用案例的過程。
但是,在複雜但高效的生成式 AI 應用案例背後,是高通在終端側 AI 方向上漫長的積累和探索。
終端 AI 進化史
如果說以數據中心爲場景的雲端 AI 硬件進化,标志是英偉達的圖形顯卡;那麽終端側 AI 的發展,具有标志意義的則是高通 AI 引擎,當然其中硬件層面最關鍵的部分就是不斷進化的骁龍 Hexagon NPU 處理器 。
早在 2007 年,高通便在骁龍平台上推出了首個 Hexagon 處理器。
2015 年,高通已經将 AI 技術集成到其處理器之中,用 AI 來增強圖像、音頻和傳感器的運算。
2017 年,高通在骁龍 845 芯片中引入了 Hexagon 685 DSP,它使智能手機更快速地執行複雜的 AI 任務,如圖像識别和語音處理。
接下來的 2018 年,骁龍 855 升級了第四代 AI 引擎,爲 Hexagon 處理器增加了張量加速器,在 AI 處理方面有了 3 倍的性能提升。
骁龍 865 中,引入了 Hexagon 698 DSP,提供了更多的 AI 性能和效率。這一版本強調了 AI 加速,并優化了 AI 模型的執行,從而在智能手機中更快速地運行 AI 應用。2020 年年底的骁龍 888 中的 Hexagon 780 DSP,提供了高達 26TOPS 的 AI 性能。
經過十多年進化,骁龍計算平台的 AI 能力已經增長 100 倍|極客公園
直到現在骁龍 X Elite 和 8 Gen 3 芯片,已經能提供 75 TOPs 的算力——如果将這七年來高通芯片在 AI 處理能力做成一張曲線圖,可以看到那條「AI 曲線」呈現一個陡峭上揚的趨勢,并且仍然沒有停下來的趨勢。
在硬件之外,高通在 AI 軟件層面上的努力, 對于提升終端 AI 的能力同樣不可或缺。高通 AI 軟件棧将其所有的 AI 軟件産品集成在統一的解決方案中。OEM 廠商和開發者可基于高通産品創建、優化和部署 AI 應用,充分利用高通 AI 引擎性能,讓 AI 開發者創建一次 AI 模型,即可跨不同産品部署。
在骁龍峰會上,高通還發布了 AI 軟件棧模型——一套能夠滿足開發人員需求的模型,這些模型經過高通公司的全面優化、測試和驗證,可支持第三代骁龍 8 和骁龍 X Elite 平台。
高通神經網絡處理 SDK 和高通 AI 引擎 Direct 是高通 AI 軟件棧的核心,連接芯片與所有主流 AI 框架。利用托管模型 TF Lite 和 ONNX RT,用戶還可以直接使用 Tensorflow 和 ONNX,讓開發人員自由選擇自己喜歡的工作環境。
高通正在和衆多巨頭、大模型公司建立終端 AI 生态|高通
高通已經和多家巨頭和大模型初創公司合作,在高通 AI 軟件棧模型發布時,已經有 30 多個大模型支持,數量還在不斷增加,而軟件棧模型也會在大熱的模型托管平台 Hugging Face 現身。
由多個軟硬件組件構成的高通 AI 引擎如今已經發展到第八代,能在骁龍和高通平台上實現終端側 AI 加速。
可以看出,以芯片底層硬件爲基礎,高通正在聯合爲數衆多的合作夥伴,建立起一個「終端 AI」生态。
「終端 AI」爲什麽這麽重要,高通,及其合作夥伴,要不遺餘力地進行投入?
「混合式 AI」的未來
在浏覽器中,在手機端的 App 裏,很多人都在使用生成式 AI 應用,看起來這種「雲端 AI」似乎已經能滿足人們的需求。相對于雲端 AI,終端側 AI 有什麽優勢?
首先就是即刻響應。之前曾經有開發者嘗試将 Stable Diffusion 模型壓縮,在 Mac 筆記本上生成圖片,結果生成速度以小時計。 而如果在終端進行本地運算,高通展示的 Demo 中,Fast Stable Diffusion 生成圖片的速度已經降到了 1 秒以下。
尤其是像虛拟人、實時虛拟背景這樣對于延遲要求較高的場景,終端 AI 本地運算的即時性就凸顯出來。
另外,在網絡不良的情況下,本地設備的 AI 能力就成了用戶的唯一選擇。
第三代骁龍 8 芯片可以在手機本地實現照片擴展能力|高通
同時,當數據跑在終端的本地時,安全性也要比在雲端更加安全。例如,骁龍 X Elite 支持最新端到端安全,從芯片到雲保護企業的全部終端。專用的高通安全處理單元支持微軟 Pluton 安全架構,旨在存儲敏感數據。
最後,就是終端 AI 能力的提升,能真正有機會讓人工智能助手,擺脫「人工智障」的罵名,真正成爲合格的高度個性化的私人智能助手。就像現場演示的那樣,借助記錄和存儲在終端側的個人信息、使用習慣等數據,智能助手在接收到語音指令後,即可直接預訂酒店和機票,而不用在手機各個 App 中跳來跳去。這些都是雲端 AI 所無法比拟的。
大概十年前,a16z 創始人馬克 · 安德森曾經做出「軟件吞噬世界」的預言,可惜現實證僞;在大模型引發的 AI 浪潮下,「AI 吞噬 App」卻正在逐步變成現實。
終端 AI+ 雲端 AI,會改變智能手機以 App 爲中心的範式|極客公園
「AI 的預測能力,加上終端是專門爲你打造的,這就讓終端和操作系統,以及應用和雲端變得智能。」
安蒙如此描繪終端 AI+ 雲端 AI 組成的「混合式 AI」,将會如何改變人們使用終端的習慣。
截至目前,使用骁龍平台的終端已經達到 30 億之巨。
就像 Oryon CPU 會在接下來進入到高通各個産品線,終端 AI 的能力,将很快從 PC 、手機轉移到 XR 和智能車機端——一個「混合式 AI」無處不在的未來。
AI 将會進入各式各樣的終端之中|高通
骁龍峰會開場,毛伊島本地民族的特殊儀式,來自海外的陌生人,通過獨特的海螺樂器和叫聲,表明自己無惡意;島上的本地族人,則以獨有的「咒語」回話對方,确認對方無惡意,值得信任。
這令人動容的儀式,很像「終端 AI」和「雲端 AI」的融合,攜手爲世人帶來「混合式 AI」的未來。
頭圖來源:極客公園 /DALL · E