高通高級副總裁：AI将成萬物入口，掌握設備就是王者

文 / 騰訊科技郝博陽

2023 年是大模型狂飙的一年，各種研究日新月異，但它和大多數普通人的關聯還遠未建立。一方面是由于缺乏有效和多樣的用例，大模型在一般人的手中能發揮出的作用很難超越搜索引擎。另一方面是體驗上的限制。

當下主流的大模型應用，如 ChatGPT， Charater.AI 等，都是以 App 形式承載的雲端應用，用戶量一度達到數億。但高通高級副總裁 Ziad Asghar 認爲，隻有當智能設備有更好的 AI 體驗的時候，AI 應用才能真正做到普及。因爲設備端的能力能給用戶帶來更快的響應，更好的個性化配置和更便宜的價格。這三個因素對于消費者最終接受新興産品來講至關重要。

這種認知也來自于科技産業的曆史經驗。Ziad 認爲新科技的擴散路徑就是從雲到端，過往的互聯網等技術變革都是在服務器中，通過 PC 或移動端覆蓋到更大的用戶技術的。因此 AI 也會溯源這一路徑，以設備爲節點鏈接終端用戶。

除了 AI 硬件能力的提升之外，高通對 AI 時代的應用和設備發展方向也有自己的預判。Ziad Asghar 表示，AI 在未來可能會成爲一切應用的入口。這意味着過往要開啓數個 App 才能完成的流程，在未來隻需向 AI 助手提起單個需求即可完成。在這一應用程序範式轉變的過程中，除了智能手機，AR、VR 産品也有可能會成爲 AI 應用的優質載體。

以下爲騰訊科技對高通高級副總裁 Ziad Asghar 訪談全文：

高通現在是一家 AI 公司

騰訊科技：高通在 2023 骁龍峰會上着重強調了 AI 能力，在高通的定位中 AI 是一個怎樣的 game changer？

Ziad Asghar：高通實際上已經在人工智能上投入了超過 15 年。2022 年底 ChatGPT 出現之後，人們開始每天利用它工作，并尋找在日常中如何更好使用它們的方法。風潮過後，我們思考的是從産品方面，如何讓 AI 能夠爲消費者做更多的事情。

在過去，電腦隻是一台電腦，但現在它可以利用 AI 爲你做很多事情。它能讓你以更高效的方式工作，包括内容創作，爲你寫郵件，完成比以前更多的任務。

而且在過去，人工智能是在背後默默工作的。它在幕後幫助你改進照片、音頻、語音或視頻質量。但随着生成式人工智能的出現，出現了基礎模型和用例，它創造出了新的機會。我們每天都可以看到行業中出現新的模型，這些模型具有更多的功能，能夠爲我們帶來新用途。

因此，從智能手機到 PC、從 AR/VR 到汽車和 IoT，我們的産品都在充分利用我們對人工智能的長期投入。這就是我們認爲 AI 是行業真正轉折點的原因。它或許會開啓一個新的周期，人們要買新手機，會想要一部 AI 智能手機；他們想買的下一台 PC，會是一台 AIPC。我認爲這就是我們能夠爲消費者帶來更多價值的地方。

騰訊科技：你提到了高通已經投入人工智能領域超過 15 年，所以它能算一家 AI 公司了嗎？

Ziad Asghar：我們絕對是一家人工智能公司，如今大家更能明顯的感知到我們的這一身份。

騰訊科技：高通作爲一家硬件公司是如何認知自己的 AI 價值的呢？

Ziad Asghar：所有的技術創新都會從雲端開始，然後随着時間的推移，逐漸過渡到邊緣設備上。這正是我們在人工智能領域所看到的：生成式 AI 模型非常龐大，如果你考慮模型和推理所需的工作量，就會發現端側計算的重要性。現在，我們可以在智能手機、PC 和 XR 産品上以非常快的速度運行 70 億、100 億和 130 億參數的像百川或 Llama 這樣的大語言模型。在智能手機上，我們可以以每秒生成 20 個 token 的速度運行 70 億參數的大語言模型，在電腦上這個速度達到了每秒 30 個 token。因此，我們在終端側已經擁有了強大的 AI 計算能力。

人工智能的應用主要有兩個部分：訓練和推理。模型訓練主要發生在雲端，隻要給模型提供大量信息，模型隻需要訓練一次。但訓練好的模型需要進行推理時，計算會多次重複發生，這很可能要發生在終端側。這其實顯而易見：在 2005 年，大約有 10 億人口能夠使用互聯網；但如今，全球有 50 億人能夠使用互聯網。這一增長中的很大部分要歸功于智能手機對網絡的接入。

你完全可以想象人工智能的應用發展也會是同樣的情況。如今，生成式人工智能基本上是在雲端進行的，但随着技術進一步發展，它會更多地出現在終端側。當然，終端側可以與雲端協同工作。這将大大推動 AI 體驗的普及。

騰訊科技：在今年，我們看到所有的芯片公司都在強調人工智能。他們都在打造 AI 芯片以增強人工智能體驗。那麽，高通對 AI 芯片的定位和相對優勢是什麽？

Ziad Asghar：誰能更好地在終端側運行生成式 AI，誰就将成爲人工智能的領導者。這就是爲什麽我們大力投入于進行模型優化，以及打造硬件解決方案，讓終端側能夠在既定功耗下實現更多的 AI 能力，我們的硬件 AI 引擎在既定功耗下有着領先的 AI 推理性能，這使得我們能夠以盡可能低的功耗，在終端上支持更高參數規模的模型，進行更多的推理操作。這一點至關重要。

從硬件角度，我們已經開發了模型量化、壓縮和提煉技術。很多公司在雲端訓練模型時，是以浮點運算方式進行訓練的。而高通能夠支持整數運算，使得模型規模更小，功耗也更低。大語言模型的終端側運行帶來了許多挑戰。要運行一個非常大的模型，需要将其存儲在終端，在處理時需要占用 DRAM 内存，通過芯片進行推理。如果使用 16 位浮點運算推理像百川這樣參數達到 70 億的大模型，模型會占用終端大量的 DRAM 内存，許多手機甚至沒有那麽大的内存容量。但是如果使用 4 位整數運算，内存的問題就解決了。我們在這方面有着豐富的經驗。同時，我們一直在打造軟件工具，結合我們領先的硬件平台，我們能夠非常高效地進行模型處理。因此，我覺得我們非常有優勢，可以在 AI 邊緣側真正取得領導地位。

得益于我們長期的 AI 投入，我們打造了業界領先的硬件 AI 能力。以 PC 爲例，我們剛剛發布了骁龍 X Elite，它的高通 AI 引擎擁有 45TOPS 的 AI 性能，而整個芯片的 AI 性能達到了 75TOPS。在 PC 領域，我們的 AI 引擎，包括 CPU、GPU 和 NPU 的性能非常領先。

因此我們可以支持在終端側運行 Microsoft Copilot，以低成本打造豐富體驗，不需要接入雲端。這爲我們帶來了巨大的優勢，我們能夠賦能 PC 廠商打造出領先的 AIPC 産品。當然，在智能手機、汽車、XR 等領域也是如此。

騰訊科技：您剛才提到了軟件。目前英偉達在 AI 服務器中的壟斷地位，在很大程度上是由 CUDA toolkit 的便利性帶來的。高通在配套開發軟件這方面有什麽舉措嗎？

Ziad Asghar：2022 年，我們推出了高通 AI 軟件棧（Qualcomm AI Stack）這一 AI 軟件産品組合，它支持所有的 AI 開發框架，包括 TensorFlow Lite，PyTorch，百度飛槳等等，以及所有 AI 庫、編譯器等開發工具，讓開發者能夠基于任何引擎（包括 CPU、GPU、NPU）進行應用開發。同時，我們還推出了高通 AI 引擎 Direct 的框架，它能允許開發者在非常接近硬件的位置進行編碼，這使得他們能夠充分發揮高通 AI 引擎的性能。

此外，你将看到我們将通過在世界移動通信大會等活動上推出更多新工具，在開發者支持方面做出更多努力。

（Qualcomm AI Stack 架構）

從曆史上看，新技術的擴散都是從雲到端

騰訊科技：爲什麽高通選擇了端雲混合 AI 作爲你們的主要發展方向？

Ziad Asghar：這是我們研究了衆多不同的生成式人工智能模态得出的結論。首先，對于不論是大語言模型、視覺模型（如 Stable Diffusion）、還是多模态模型，大部分模型的運算規模都不超過 150 到 200 億參數。另一個趨勢是模型參數規模在不斷縮小，同時功能越來越強大。像 Llama 2 或者是百川這種規模的模型，他們相比于 ChatGPT 這樣規模更大、需要在雲端運行的模型來說，能力也非常強大。所以，當你把這兩個趨勢結合起來思考時，就能明白終端也能夠做更多事情。而且在未來，我們的 AI 能力會持續提升。

但仍然會有非常龐大的模型，比如推薦模型無法被壓縮。因此，我們認爲它們可以繼續在雲端運行，在混合 AI 模式下，模型可以在端側處理一部分内容，這可以保證消費者的數據隐私，這對他們來說這非常重要。系統會将其他推理任務傳遞到雲端進行處理。通過混合 AI，模型能夠同時利用終端和雲端優勢，給消費者提供最佳體驗。

假設，你正在利用 AI 對電腦上的文件進行摘要，如果這個文件有一定版權性質，你肯定希望處理工作能在本地進行，那麽系統就會在端側将這個任務完成。但假設你需要一個必須在雲端處理的推薦模型，我們也可以利用在終端和雲端進行分布式處理的技術。AI 處理可以擁有一個雲端和終端之間的協調層，實現非常出色，統一的跨終端體驗。

騰訊科技：除了隐私保護外，終端側 AI 還會帶來什麽雲端無法帶來的用戶體驗？

Ziad Asghar：首先，假設你在飛機上無法連接網絡，這時候你就無法使用任何雲端大語言模型或其他類似的功能。而如果你在終端側運行 AI，雖然斷了網，但你仍然可以獲得完全相同的體驗。在汽車數字座艙中也是如此，當用戶駕駛到沒有網絡覆蓋的地方，也可以利用終端側 AI。

第二點，端側模型可以實現非常快速的響應。消費者的耐心有限，如果不能夠迅速地回答他們的問題，他們就會去其他地方尋找答案。因此，我認爲即時性是非常重要的。

第三點是成本。成本是非常重要的因素。如果你不是在終端側，而是在雲端運行生成式 AI，那就會用到高算力的 GPU，耗費大量的電力。這些 GPU 會消耗數百瓦的電力，而你的設備隻需要幾毫瓦。因此，當有更多的生成式人工智能用例出現，有更多的人使用生成式 AI 時，雲端計算規模也會對應增長，成本就會增加。而在終端側運行則基本解決了這個問題：基本可以說是免費的。

最後的一個非常重要的優勢是，智能手機會知道現在的時間，你在美國還是在中國；智能手機知道你是在行走，還是在交談，還是在開車。如果我在雲端大語言模型上提問尋求幫助，它給我的答案和它給我 11 歲的女兒的答案不會有任何差别。但如果我們能夠利用終端側可用的信息，使得查詢更加精準，AI 就可以給我一個更優化的答案，比如一個根據我所處位置不同的答案。所以，終端側 AI 對實現個性化體驗非常重要。甚至可以想象，随着時間的推移，手機或電腦上的模型會基于用戶特征進行持續的個性化優化，這是雲端模型難以做到的。

騰訊科技：前幾年流行的 " 全部上雲 " 風潮，包括蘋果的雲遊戲策略等，都是通過雲技術的發展，延遲的降低，在很大程度上也降低了遊戲機等設備的端側能力需求。這一發展潮流是否會在 AI 模型方面出現？所以端雲混合是否隻是一個階段性的解決方法？

Ziad Asghar：雲遊戲是很多公司嘗試過的東西。但如果你仔細觀察，會注意到能夠在雲上運行的遊戲類型很有限，隻有那些對時延不敏感的遊戲才行，比如策略遊戲。但如果是像多人聯網動作遊戲這種對時延要求很高的遊戲類型，就不适用于在雲端進行。在 AI 用例方面，比如車機系統中的 ADAS 應用（高級輔助駕駛），它必須支持在終端側進行操作，因爲它對即時性的要求會非常嚴格。所以雲系統在很多方面是非常受限的。

另外，這些服務許多都是需要付費的。我認爲這也是雲端和終端的區别所在。我們在終端側所做的，你可以随時進行，而且不會産生費用。放在雲端的所有東西，都會持續收取費用。

AI 未來就是一切應用的入口

騰訊科技：在目前，AI 大模型還主要是以 App 的形式出現在智能設備之中的。您覺得後續随着 AI 能力的加強，應用程序生态會發生怎樣的變化？

Ziad Asghar：實際上，這正是我們目前所設想的情況。假設你要預訂一張去中國的機票，現在你要做的第一件事是打開一個應用，然後找到裏面價格最便宜的航班，把它添加到另一個日曆應用裏，然後再查看你的日曆确認你什麽時候出發。這是現在你定航班的流程。

那如果你的虛拟 AI 助手就是你所使用的終端上的唯一交互對象，你就隻需要和它交互，而它再在幕後啓動三、四個應用，爲你直接返回結果，找到最優的航班，提供你可以選擇的時間。現在即使在家裏使用一些智能家居應用，我也必須打開三四個不同的應用才能弄清楚該怎麽操作。但有了 AI 你就不再需要這樣做。

這同樣也适用于汽車。今天它的交互非常機械化，但在未來你可以跟它說，" 我還有大概三個小時就要去機場，你能給我找家好吃的日料店嗎？" 汽車就能夠在不耽誤航班的情況下滿足你的需求。這是一種全新的體驗，就像《霹靂遊俠（Knight Rider）》裏那樣，我就是看着《霹靂遊俠》長大的。所以我們現在有了這樣的技術，可以改變過往的用戶交互界面。

（美劇《霹靂遊俠》，1982 年開播，其中的智慧汽車 K.I.T.T. 由 AI 驅動，可以對話和自動駕駛）

騰訊科技：所以在你看來，AI 會成爲一個萬能應用嗎？

Ziad Asghar：我認爲這正是未來的發展方向：你不用再打開 4-5 個應用去完成一件事，而隻需要和 AI 虛拟助手交互即可。它會搜集需要的信息并直接給你答案。這就是人工智能幫助我們節省時間的方式。我們不需要再進行這些繁瑣的工作了，生活也會更加輕松。

騰訊科技：那在這樣一種萬能應用的背景下，電子設備本身會發生什麽改變呢？新型的 AI 設備會是什麽樣的？

Ziad Asghar：智能手機當然會從中受益，因爲這是人們最常用的終端。但是我們做了更多準備，我們有 AR/VR 産品，未來可能會有虛拟助手出現在你的 AR 眼鏡上，它也可以出現在 AI Pin 上。高通緻力于賦能廣泛的邊緣側智能網聯終端，我們認爲其他終端類型也将不斷發展，AI 設備的形态創新還有很大空間，我認爲這就是初創公司能盡力進行創新的地方。

騰訊科技：你提到了 VR、AR。這些 XR 設備之所以不流行很大程度上是因爲沒有合适的交互方式。AI 的出現會改變這種情況嗎？

Ziad Asghar：絕對會。比如 AR 眼鏡，你不能像智能手機那樣在上面輸入文字，所以最好通過語音進行交互，或者你要指着某樣東西，那這個設備需要有出色的手部追蹤技術。它需要不同種類的互動方式，而人工智能非常适合将這些交互形式變爲現實。