文 / 騰訊科技 郝博陽
2023 年是大模型狂飙的一年,各種研究日新月異,但它和大多數普通人的關聯還遠未建立。一方面是由于缺乏有效和多樣的用例,大模型在一般人的手中能發揮出的作用很難超越搜索引擎。另一方面是體驗上的限制。
當下主流的大模型應用,如 ChatGPT, Charater.AI 等,都是以 App 形式承載的雲端應用,用戶量一度達到數億。但高通高級副總裁 Ziad Asghar 認爲,隻有當智能設備有更好的 AI 體驗的時候,AI 應用才能真正做到普及。因爲設備端的能力能給用戶帶來更快的響應,更好的個性化配置和更便宜的價格。這三個因素對于消費者最終接受新興産品來講至關重要。
這種認知也來自于科技産業的曆史經驗。Ziad 認爲新科技的擴散路徑就是從雲到端,過往的互聯網等技術變革都是在服務器中,通過 PC 或移動端覆蓋到更大的用戶技術的。因此 AI 也會溯源這一路徑,以設備爲節點鏈接終端用戶。
除了 AI 硬件能力的提升之外,高通對 AI 時代的應用和設備發展方向也有自己的預判。Ziad Asghar 表示,AI 在未來可能會成爲一切應用的入口。這意味着過往要開啓數個 App 才能完成的流程,在未來隻需向 AI 助手提起單個需求即可完成。在這一應用程序範式轉變的過程中,除了智能手機,AR、VR 産品也有可能會成爲 AI 應用的優質載體。
以下爲騰訊科技對高通高級副總裁 Ziad Asghar 訪談全文:
高通現在是一家 AI 公司
騰訊科技:高通在 2023 骁龍峰會上着重強調了 AI 能力,在高通的定位中 AI 是一個怎樣的 game changer?
Ziad Asghar:高通實際上已經在人工智能上投入了超過 15 年。2022 年底 ChatGPT 出現之後,人們開始每天利用它工作,并尋找在日常中如何更好使用它們的方法。風潮過後,我們思考的是從産品方面,如何讓 AI 能夠爲消費者做更多的事情。
在過去,電腦隻是一台電腦,但現在它可以利用 AI 爲你做很多事情。它能讓你以更高效的方式工作,包括内容創作,爲你寫郵件,完成比以前更多的任務。
而且在過去,人工智能是在背後默默工作的。它在幕後幫助你改進照片、音頻、語音或視頻質量。但随着生成式人工智能的出現,出現了基礎模型和用例,它創造出了新的機會。我們每天都可以看到行業中出現新的模型,這些模型具有更多的功能,能夠爲我們帶來新用途。
因此,從智能手機到 PC、從 AR/VR 到汽車和 IoT,我們的産品都在充分利用我們對人工智能的長期投入。這就是我們認爲 AI 是行業真正轉折點的原因。它或許會開啓一個新的周期,人們要買新手機,會想要一部 AI 智能手機;他們想買的下一台 PC,會是一台 AIPC。我認爲這就是我們能夠爲消費者帶來更多價值的地方。
騰訊科技:你提到了高通已經投入人工智能領域超過 15 年,所以它能算一家 AI 公司了嗎?
Ziad Asghar:我們絕對是一家人工智能公司,如今大家更能明顯的感知到我們的這一身份。
騰訊科技:高通作爲一家硬件公司是如何認知自己的 AI 價值的呢?
Ziad Asghar:所有的技術創新都會從雲端開始,然後随着時間的推移,逐漸過渡到邊緣設備上。這正是我們在人工智能領域所看到的:生成式 AI 模型非常龐大,如果你考慮模型和推理所需的工作量,就會發現端側計算的重要性。現在,我們可以在智能手機、PC 和 XR 産品上以非常快的速度運行 70 億、100 億和 130 億參數的像百川或 Llama 這樣的大語言模型。在智能手機上,我們可以以每秒生成 20 個 token 的速度運行 70 億參數的大語言模型,在電腦上這個速度達到了每秒 30 個 token。因此,我們在終端側已經擁有了強大的 AI 計算能力。
人工智能的應用主要有兩個部分:訓練和推理。模型訓練主要發生在雲端,隻要給模型提供大量信息,模型隻需要訓練一次。但訓練好的模型需要進行推理時,計算會多次重複發生,這很可能要發生在終端側。這其實顯而易見:在 2005 年,大約有 10 億人口能夠使用互聯網;但如今,全球有 50 億人能夠使用互聯網。這一增長中的很大部分要歸功于智能手機對網絡的接入。
你完全可以想象人工智能的應用發展也會是同樣的情況。如今,生成式人工智能基本上是在雲端進行的,但随着技術進一步發展,它會更多地出現在終端側。當然,終端側可以與雲端協同工作。這将大大推動 AI 體驗的普及。
騰訊科技:在今年,我們看到所有的芯片公司都在強調人工智能。他們都在打造 AI 芯片以增強人工智能體驗。那麽,高通對 AI 芯片的定位和相對優勢是什麽?
Ziad Asghar:誰能更好地在終端側運行生成式 AI,誰就将成爲人工智能的領導者。這就是爲什麽我們大力投入于進行模型優化,以及打造硬件解決方案,讓終端側能夠在既定功耗下實現更多的 AI 能力,我們的硬件 AI 引擎在既定功耗下有着領先的 AI 推理性能,這使得我們能夠以盡可能低的功耗,在終端上支持更高參數規模的模型,進行更多的推理操作。這一點至關重要。
從硬件角度,我們已經開發了模型量化、壓縮和提煉技術。很多公司在雲端訓練模型時,是以浮點運算方式進行訓練的。而高通能夠支持整數運算,使得模型規模更小,功耗也更低。大語言模型的終端側運行帶來了許多挑戰。要運行一個非常大的模型,需要将其存儲在終端,在處理時需要占用 DRAM 内存,通過芯片進行推理。如果使用 16 位浮點運算推理像百川這樣參數達到 70 億的大模型,模型會占用終端大量的 DRAM 内存,許多手機甚至沒有那麽大的内存容量。但是如果使用 4 位整數運算,内存的問題就解決了。我們在這方面有着豐富的經驗。同時,我們一直在打造軟件工具,結合我們領先的硬件平台,我們能夠非常高效地進行模型處理。因此,我覺得我們非常有優勢,可以在 AI 邊緣側真正取得領導地位。
得益于我們長期的 AI 投入,我們打造了業界領先的硬件 AI 能力。以 PC 爲例,我們剛剛發布了骁龍 X Elite,它的高通 AI 引擎擁有 45TOPS 的 AI 性能,而整個芯片的 AI 性能達到了 75TOPS。在 PC 領域,我們的 AI 引擎,包括 CPU、GPU 和 NPU 的性能非常領先。
因此我們可以支持在終端側運行 Microsoft Copilot,以低成本打造豐富體驗,不需要接入雲端。這爲我們帶來了巨大的優勢,我們能夠賦能 PC 廠商打造出領先的 AIPC 産品。當然,在智能手機、汽車、XR 等領域也是如此。
騰訊科技:您剛才提到了軟件。目前英偉達在 AI 服務器中的壟斷地位,在很大程度上是由 CUDA toolkit 的便利性帶來的。高通在配套開發軟件這方面有什麽舉措嗎?
Ziad Asghar:2022 年,我們推出了高通 AI 軟件棧(Qualcomm AI Stack)這一 AI 軟件産品組合,它支持所有的 AI 開發框架,包括 TensorFlow Lite,PyTorch,百度飛槳等等,以及所有 AI 庫、編譯器等開發工具,讓開發者能夠基于任何引擎(包括 CPU、GPU、NPU)進行應用開發。同時,我們還推出了高通 AI 引擎 Direct 的框架,它能允許開發者在非常接近硬件的位置進行編碼,這使得他們能夠充分發揮高通 AI 引擎的性能。
此外,你将看到我們将通過在世界移動通信大會等活動上推出更多新工具,在開發者支持方面做出更多努力。
(Qualcomm AI Stack 架構)
從曆史上看,新技術的擴散都是從雲到端
騰訊科技:爲什麽高通選擇了端雲混合 AI 作爲你們的主要發展方向?
Ziad Asghar:這是我們研究了衆多不同的生成式人工智能模态得出的結論。首先,對于不論是大語言模型、視覺模型(如 Stable Diffusion)、還是多模态模型,大部分模型的運算規模都不超過 150 到 200 億參數。另一個趨勢是模型參數規模在不斷縮小,同時功能越來越強大。像 Llama 2 或者是百川這種規模的模型,他們相比于 ChatGPT 這樣規模更大、需要在雲端運行的模型來說,能力也非常強大。所以,當你把這兩個趨勢結合起來思考時,就能明白終端也能夠做更多事情。而且在未來,我們的 AI 能力會持續提升。
但仍然會有非常龐大的模型,比如推薦模型無法被壓縮。因此,我們認爲它們可以繼續在雲端運行,在混合 AI 模式下,模型可以在端側處理一部分内容,這可以保證消費者的數據隐私,這對他們來說這非常重要。系統會将其他推理任務傳遞到雲端進行處理。通過混合 AI,模型能夠同時利用終端和雲端優勢,給消費者提供最佳體驗。
假設,你正在利用 AI 對電腦上的文件進行摘要,如果這個文件有一定版權性質,你肯定希望處理工作能在本地進行,那麽系統就會在端側将這個任務完成。但假設你需要一個必須在雲端處理的推薦模型,我們也可以利用在終端和雲端進行分布式處理的技術。AI 處理可以擁有一個雲端和終端之間的協調層,實現非常出色,統一的跨終端體驗。
騰訊科技:除了隐私保護外,終端側 AI 還會帶來什麽雲端無法帶來的用戶體驗?
Ziad Asghar:首先,假設你在飛機上無法連接網絡,這時候你就無法使用任何雲端大語言模型或其他類似的功能。而如果你在終端側運行 AI,雖然斷了網,但你仍然可以獲得完全相同的體驗。在汽車數字座艙中也是如此,當用戶駕駛到沒有網絡覆蓋的地方,也可以利用終端側 AI。
第二點,端側模型可以實現非常快速的響應。消費者的耐心有限,如果不能夠迅速地回答他們的問題,他們就會去其他地方尋找答案。因此,我認爲即時性是非常重要的。
第三點是成本。成本是非常重要的因素。如果你不是在終端側,而是在雲端運行生成式 AI,那就會用到高算力的 GPU,耗費大量的電力。這些 GPU 會消耗數百瓦的電力,而你的設備隻需要幾毫瓦。因此,當有更多的生成式人工智能用例出現,有更多的人使用生成式 AI 時,雲端計算規模也會對應增長,成本就會增加。而在終端側運行則基本解決了這個問題:基本可以說是免費的。
最後的一個非常重要的優勢是,智能手機會知道現在的時間,你在美國還是在中國;智能手機知道你是在行走,還是在交談,還是在開車。如果我在雲端大語言模型上提問尋求幫助,它給我的答案和它給我 11 歲的女兒的答案不會有任何差别。但如果我們能夠利用終端側可用的信息,使得查詢更加精準,AI 就可以給我一個更優化的答案,比如一個根據我所處位置不同的答案。所以,終端側 AI 對實現個性化體驗非常重要。甚至可以想象,随着時間的推移,手機或電腦上的模型會基于用戶特征進行持續的個性化優化,這是雲端模型難以做到的。
騰訊科技:前幾年流行的 " 全部上雲 " 風潮,包括蘋果的雲遊戲策略等,都是通過雲技術的發展,延遲的降低,在很大程度上也降低了遊戲機等設備的端側能力需求。這一發展潮流是否會在 AI 模型方面出現?所以端雲混合是否隻是一個階段性的解決方法?
Ziad Asghar:雲遊戲是很多公司嘗試過的東西。但如果你仔細觀察,會注意到能夠在雲上運行的遊戲類型很有限,隻有那些對時延不敏感的遊戲才行,比如策略遊戲。但如果是像多人聯網動作遊戲這種對時延要求很高的遊戲類型,就不适用于在雲端進行。在 AI 用例方面,比如車機系統中的 ADAS 應用(高級輔助駕駛),它必須支持在終端側進行操作,因爲它對即時性的要求會非常嚴格。所以雲系統在很多方面是非常受限的。
另外,這些服務許多都是需要付費的。我認爲這也是雲端和終端的區别所在。我們在終端側所做的,你可以随時進行,而且不會産生費用。放在雲端的所有東西,都會持續收取費用。
AI 未來就是一切應用的入口
騰訊科技:在目前,AI 大模型還主要是以 App 的形式出現在智能設備之中的。您覺得後續随着 AI 能力的加強,應用程序生态會發生怎樣的變化?
Ziad Asghar:實際上,這正是我們目前所設想的情況。假設你要預訂一張去中國的機票,現在你要做的第一件事是打開一個應用,然後找到裏面價格最便宜的航班,把它添加到另一個日曆應用裏,然後再查看你的日曆确認你什麽時候出發。這是現在你定航班的流程。
那如果你的虛拟 AI 助手就是你所使用的終端上的唯一交互對象,你就隻需要和它交互,而它再在幕後啓動三、四個應用,爲你直接返回結果,找到最優的航班,提供你可以選擇的時間。現在即使在家裏使用一些智能家居應用,我也必須打開三四個不同的應用才能弄清楚該怎麽操作。但有了 AI 你就不再需要這樣做。
這同樣也适用于汽車。今天它的交互非常機械化,但在未來你可以跟它說," 我還有大概三個小時就要去機場,你能給我找家好吃的日料店嗎?" 汽車就能夠在不耽誤航班的情況下滿足你的需求。這是一種全新的體驗,就像《霹靂遊俠(Knight Rider)》裏那樣,我就是看着《霹靂遊俠》長大的。所以我們現在有了這樣的技術,可以改變過往的用戶交互界面。
(美劇《霹靂遊俠》,1982 年開播,其中的智慧汽車 K.I.T.T. 由 AI 驅動,可以對話和自動駕駛)
騰訊科技:所以在你看來,AI 會成爲一個萬能應用嗎?
Ziad Asghar:我認爲這正是未來的發展方向:你不用再打開 4-5 個應用去完成一件事,而隻需要和 AI 虛拟助手交互即可。它會搜集需要的信息并直接給你答案。這就是人工智能幫助我們節省時間的方式。我們不需要再進行這些繁瑣的工作了,生活也會更加輕松。
騰訊科技:那在這樣一種萬能應用的背景下,電子設備本身會發生什麽改變呢?新型的 AI 設備會是什麽樣的?
Ziad Asghar:智能手機當然會從中受益,因爲這是人們最常用的終端。但是我們做了更多準備,我們有 AR/VR 産品,未來可能會有虛拟助手出現在你的 AR 眼鏡上,它也可以出現在 AI Pin 上。高通緻力于賦能廣泛的邊緣側智能網聯終端,我們認爲其他終端類型也将不斷發展,AI 設備的形态創新還有很大空間,我認爲這就是初創公司能盡力進行創新的地方。
騰訊科技:你提到了 VR、AR。這些 XR 設備之所以不流行很大程度上是因爲沒有合适的交互方式。AI 的出現會改變這種情況嗎?
Ziad Asghar:絕對會。比如 AR 眼鏡,你不能像智能手機那樣在上面輸入文字,所以最好通過語音進行交互,或者你要指着某樣東西,那這個設備需要有出色的手部追蹤技術。它需要不同種類的互動方式,而人工智能非常适合将這些交互形式變爲現實。