從 Stable Diffusion 到 ChatGPT,這半年 AI 算法應用可謂突飛猛進。
但對于硬件領域而言,AI 計算的下一個突破口或未來趨勢究竟是什麼?
尤其是 AI 應用最大的領域之一——移動端,大量 AI 算法在這裡遭遇考驗,也在這裡部署落地。
作為移動硬件領域對終端側 AI 最有話語權的芯片廠商之一,高通對于未來 AI 計算的發展方向是如何預測的?
在 MEET2023 智能未來大會上,高通技術公司産品管理高級副總裁 Ziad Asghar 分享了自己對于提升 AI 處理性能、以及未來 AI 計算發展方向的思考:
數據會不斷從邊緣側産生,因此 AI 處理的重心正在持續向邊緣轉移。
邊緣側是進行 AI 處理的最佳選擇。
為了完整體現 Ziad Asghar 的分享及思考,在不改變原意的基礎上,量子位對他的演講内容進行了編輯整理。
關于 MEET 智能未來大會:MEET 大會是由量子位主辦的智能科技領域頂級商業峰會,緻力于探讨前沿科技技術的落地與行業應用。今年共有數十家主流媒體及直播平台報道直播了 MEET2023 大會,吸引了超過 300 萬行業用戶線上參會,全網總曝光量累積超過 2000 萬。
演講要點
消費者希望有更好的數據隐私,所有的終端數據能夠留在終端上,希望數據可靠,處理結果即時獲取。因此,邊緣側是進行 AI 處理的最佳選擇,而高通一直在推動這場變革。
AI 處理的最佳平台是智能手機,因為它随時随地可用,且人人都有、人人可用。
過去所有的 AI 推理都在雲端進行,如今大量推理工作正在被轉移至邊緣側完成。
終端側的實際數據可能讓模型的訓練效果産生重要變化,同時提升其泛化能力。
自動駕駛領域充滿挑戰,它必須能高精度分辨人類和障礙物,否則後果不堪設想,這也恰好是 AI 的用武之地。
(以下為 Ziad Asghar 演講實錄整理)
AI 處理下一階段:邊緣計算
今天我将和大家分享的主題是,高通如何讓智能網聯邊緣(Connected Intelligent Edge)成為現實。
這幾年來,我們的團隊研發了不少前沿 AI 技術,也一直在不斷提升終端側的智能水平。
在此期間,我們 " 将很多不可能變成可能 ",不僅打造了一些全新的應用案例,增強和改進了現有産品的體驗,還通過 AI 技術提升了終端側和産品的性能。
聚焦終端,我們會發現數據不斷從邊緣側産生,因此我們認為,AI 處理的重心正在持續向邊緣轉移。
主要有兩方面原因:
一方面,消費者希望保護個人數據隐私,即将終端數據保留在終端設備上;另一方面,消費者又需要可靠的數據、并即時獲得處理結果。
因此,邊緣側是進行 AI 處理的最佳選擇,而高通一直在推動這場變革。
着眼當下,高通已經在智能手機領域取得了突破性的成果,也将不少 AI 算法應用到了影像、圖形處理等功能中。
随着我們不斷向前發展,這些技術還會被集成到 XR 眼鏡、PC、物聯網、汽車等産品當中,而這些産品也會應用更多 AI 技術,目的是帶來更好的體驗、突破更多瓶頸。
所以,高通究竟運用了哪些讓産品脫穎而出的技術?
首先,高通專注于基于 "統一的技術路線圖" 進行産品開發。
作為能夠全面覆蓋智能網聯邊緣、實現規模化擴展的技術,它涵蓋了邊緣 AI、前沿的視覺效果和視覺技術、圖形和遊戲技術、新穎的多媒體效果、極快處理速度,以及 5G 連接能力等特性。
我們将這些技術進行規模化擴展,從耳機等較低複雜度的産品,一直延伸到汽車、ADAS 系統等高複雜度的産品。
這張圖片展示了 AI 技術的一系列應用場景,當然這還隻是終端設備中的一小部分:
至于這些 AI 技術,則包含了自然語言處理、面部識别等多種不同的能力。
然後就是高通 AI 引擎了。得益于這一核心成果,目前高通的 AI 技術已經賦能 20 億終端。
高通 AI 引擎包含圖形處理單元、CPU、以及更關鍵的 Hexagon 處理器,其中 Hexagon 處理器又包含标量、向量和張量處理器。
如果從神經網絡架構來看,你會發現标量、向量和張量處理器能很好地與神經網絡模型的不同部分實現匹配,這正是我們模仿自然界的神經網絡模型、從而打造 Hexagon 處理器的原因。
那麼,高通 AI 引擎具體能做些什麼?
根據一些基準測試數據,高通 AI 引擎表現十分出色,顯著超越了同行産品性能。
從第一代骁龍 8 到第二代骁龍 8,我們都非常專注于自然語言處理(NLP)、目标檢測等模型的性能優化。
以 MobileBERT 模型為例。正如圖片所展示,針對這個 NLP 模型,我們将處理速度提升了超過 4 倍:
我們還會持續優化性能、不斷突破模型極限,在邊緣側實現更多能力。
此外,我們還開發了具有高度可擴展性的硬件架構。
高通的移動平台,通常會配置一個 Hexagon 處理器實例;但如果擴展到計算等其他業務時,也可以使用兩個 Hexagon 處理器實例;面向汽車、雲和邊緣,則可以使用多個 Hexagon 處理器實例來提高算力。
但這也需要針對性地面向可擴展性進行開發。而高通已經具備這樣的獨特算法和架構,讓這種技術成為可能。
從性能和能效角度來看(既定功耗下可以釋放多少性能),我們已經多方面超越了競争對手,這是基于過去幾年積累的技術不斷提升的成果。
例如根據性能基準測試 AITuTu,在排名前十的 AI 平台性能列表中,骁龍平台就占據了前四名,包括第二代骁龍 8、以及此前發布的第一代骁龍 8、骁龍 8+ 和骁龍 888。
△數據來源:AITuTu
這其中甚至還有骁龍 7 系産品入榜,也是我們技術實力的體現之一。
如今,我們的目标是讓 AI 無處不在——
因此,AI 處理的最佳平台應該是智能手機,因為它随時随地可用,而且人人都有、人人能用。
如何提升端側 AI 處理性能?
為了讓 AI 在終端側發揮最大作用,我們帶來了哪些技術呢?
其中之一,是支持INT4 精度推理。
相比于 INT8,INT4 能夠實現 60% 的能效提升和 90% 的 AI 推理速度提升。如果從 INT8 轉化到 INT4、或從浮點計算轉化到整數計算,在同樣的算力下我們就能夠處理更多數據。
如果把 32 位浮點模型轉化為 INT4 模型,這個能效甚至可以提升到 64 倍。
這些是我們已經在邊緣側實現的技術。
可以看到,将模型從 INT8 轉化為 INT4 時,推理精準度和畫面質量均沒有受到影響。這也得益于我們打造的前沿工具和軟件,用它們能夠讓前沿技術與我們的硬件方案充分結合。
除了持續提升性能、并應用 Hexagon 處理器引擎以外,在芯片子系統中,我們還集成了一個小型、" 始終在線 " 的引擎,稱之為高通傳感器中樞。
它能同時處理多路數據流,包括傳感器、語音和音頻、連接和始終感知的攝像頭等,有了它我們就能實現更多應用案例。
實際上,我們将高通傳感器中樞的 AI 能力提高了一倍,通過增加 50% 的存儲,提升它安全方面的性能,包括人身安全、數據安全、健康等等。
舉例來說,讓它具備識别隐患聲音的能力,比如半夜傳來的玻璃破碎聲,這樣就能使用 AI 賦能的高通傳感器中樞進行監測、并采取對應的預警措施。
通過高通傳感器中樞,我們還能提升平台包括關鍵詞識别、異常檢測、圖像分類能力在内的 AI 能力。從第一代骁龍 8 到第二代骁龍 8,這些性能提升了近九倍。
如今,我們已經有了全面的解決方案,這裡就包括業界領先的軟件産品,高通 AI 軟件棧。
高通 AI 軟件棧能夠實現 " 模型一次開發,跨所有高通産品線進行擴展 "。也就是說,用戶隻需開發一次模型,就能在所有不同産品中使用它。
這不僅為高通、也為消費者和客戶帶來了獨特體驗,讓他們真正感受到這項技術帶來的便利。
高通 AI 軟件棧支持所有主流框架,包括 TensorFlow、PyTorch 和 ONNX 等等,也提供數學庫、編譯器等全面的工具支持,讓客戶能夠充分利用高通獨特 AI 硬件的優勢。
但正如我前面提到的,包括 INT4 在内的特性和體驗,都需要特别的工具能力。因此,我們開發了全新的工具産品,即Qualcomm AI Studio。
如下面這個視頻所示,Qualcomm AI Studio 可以實現模型全面管理,包括模型創建、運行情況監測,模型分析等,從開發到運行實現全面支持。
這讓我們能夠充分發揮 INT4 的能力,給用戶帶來更好的體驗。
下面這張圖清晰展示了我們對于模型完整生命周期的規劃,它可以被應用到我們所有的業務和産品線,成為高通産品中一種獨特的優勢。
我們還支持神經網絡架構搜索(NAS)等功能和體驗,它允許開發者設定某些模型優化目标,比如具體功耗優化、時延或者精準度等,同時我們還與谷歌就 Google Vertex AI NAS 展開了合作。
這些不同的産品線讓我們大幅改善了時延、并顯著提升精準度,下圖的 1.3% 就是一個相當顯著的精度提升。
OPPO 率先與高通基于 Vertex AI NAS 展開了合作,提升終端 AI 的體驗。
邊緣 AI 下一步往哪走?
接下來的 AI 發展方向是什麼?
過去所有的 AI 推理都在雲端進行。如今,大量推理工作正在被轉移至邊緣側終端完成。
下一步,就是實現完全的分布式 AI,即轉向終端側學習的工作方式。這一點至關重要,正如我前面提到的,我們已經開始用 AI 模仿一些自然行為。
現在 AI 像人類一樣具備一定的推理能力,能夠區分圖片中的皮膚、毛發、織物或布料,接下來我們還會持續提升推理能力,讓終端更加智能。
但問題是,我們如今已能做到一定程度的終端側學習,這能帶來什麼收益呢?
目前典型的模型訓練方式,通常是基于一定數量的數據進行訓練。但終端側的實際測試數據,卻可能讓模型的訓練效果發生重大變化。這就是終端側學習能保持甚至提升精準度的原因,同時也能提升模型的泛化能力。
這也能讓用戶的終端體驗變得更加個性化,遠超當前終端側所能實現的能力,而這正是我們在努力的方向,高通正在采取不同的方式實現這一點。
我們的研究團隊關注了很多不同的研究方向,包括小樣本學習、無監督持續學習、聯邦學習和低複雜度的終端側訓練,我會對其中的部分研究方向進行介紹。
基于此大家可以看出,我們已經進入了第二階段,在邊緣進行終端側學習時,需要做到極低的功耗。
以關鍵詞識别為例,利用小樣本學習就可以實現大幅提升,甚至在現實情況下,能讓 AI 做到看完某一人的筆迹或者書面文字後,快速進行辨認。
我們也能做到在用戶錄入數據時進行局部模型适應,憑借非常少量的樣本數據和出色的數據标記能力,大幅提升關鍵詞識别的表現。
舉例來說,當遇到說話有特定口音的用戶時,針對異常值數據檢測,借助小樣本學習讓關鍵詞檢測算法的檢測率提升 30% 左右,讓這個模型真正做到靈活運用。
我們探索的另一條路徑是聯邦學習。雲端創建的模型被下發到邊緣側終端後,基于一定程度的離線學習,邊緣側終端就可以根據消費者實際情況調整模型。
同時,由于終端側學習的過程會産生噪聲,所以還能将之回傳雲端并進一步提升模型泛化能力。
舉例來說,如果一輛汽車不斷在多個不同國家、不同路況行駛,雲端模型就可以持續進行适應,假以時日模型經過優化,就能夠打造更優秀的自動駕駛汽車模型,這是我們通過打造平台,支持終端側聯邦學習的又一範例。
沒錯,包括出色的推理、機器學習或者 INT4 等能力在内,這些技術對于汽車同樣大有用武之地。
汽車是一個充滿挑戰的獨特領域,它的系統必須能夠分辨人類和障礙物、并做到高精準度,否則後果将是災難性的,這也恰好是 AI 技術的體現。
借助出色的 5G 能力,我們就能以超低時延将數據傳輸到終端,大幅提升安全性。
另一個 AI 落地的關鍵領域是元宇宙。
例如,用 AR 眼鏡與周圍世界互動時,要實現雙手交互功能,就需要用到 AI 手勢檢測技術;同時,AR 給平面上放置虛拟物體的功能,也需要将 AI 應用其中……還有不少地方也都會用到 AI。
整體而言,我們非常高興能夠跨所有業務線,憑借業界領先的軟硬件結合能力,以及高通 AI 軟件棧和 Qualcomm AI Studio,引領市場向着充分利用智能網聯邊緣的方向發展。
我堅信,目前我們所利用的終端側 AI 能力隻是冰山一角。
未來,終端側 AI 需求還會變得越來越多,我們十分期待能夠沿着這個方向繼續推進,讓智能網聯邊緣成為現實。