「iPhone時刻」後，大模型跑進終端

在過去的一年裏，生成式 AI 大模型成爲了全世界範圍内絕對的熱點。

ChatGPT 一聲炮響，給全世界帶來了 AI 革命的震撼。

從畫師、模特和程序員失業危機的讨論，到大模型密集發布引爆廠商之間的 " 千模之戰 "。人工智能從未像如今這樣深刻的影響着人們的生活。

自 2022 年 11 月 ChatGPT 推出後，短短兩個月時間，活躍用戶就已沖上一億，不僅超越了 Tik Tok 成爲有史以來增長速度最快的消費類應用，也是以人工智能爲核心賣點的第一個殺手級應用。

在 GPT 類應用的風起雲湧下，人們關于未來的暢想也如同野馬脫缰。

生成式的 AI 模型能夠基于關鍵詞和簡單的提示創造出包括文字、視頻甚至程序在内的原創内容。不論是在娛樂性還是生産力方面，在人們的暢想中都毫無疑問是繼移動互聯網興起之後下一波爆點，甚至是下一次技術革命的開端。

在打響了第一槍之後，大模型正在努力完成從雲端走向終端，完成從技術到應用的蛻變。

大模型的普及之困

英偉達 CEO 黃仁勳今年 3 月時就高呼 AI 迎來了 "iPhone 時刻 "，但實際上，生成式大模型要成 AI 界的 "iPhone"，還要跨過從雲端到終端的高牆。

熟練使用大模型的能力，已然和世紀初的 " 會使用電腦 "、" 會打字 " 一樣，成爲步入下一個科技世代的門票，甚至出現在了一些公司的招聘要求中。

ChatGPT 能夠出圈，除去生成式人工智能帶來的新奇體驗和生産力上的跨越升級，還與其簡單、符合常識認知的操作有關 :ChatGPT 的界面與人們早已熟悉的社交軟件聊天界面幾乎相同，對使用者來說幾乎可以從社交軟件的使用經驗得到的直覺中掌握用法。

但形式上的簡單并不代表技術上的坦途，事實上，GPT 敲出的每一行字的背後，都存在着大模型繁複的訓練和推理。

與傳統的搜索方法相比，生成式大模型的搜索成本高出十倍。

在鍵盤上敲下一次問題，等待 GPT 回複的短短數秒内，牽扯到雲端背後數以千億級的參數。

而受到模型本身參數規模的要求，要完成一個生成式 AI 模型的部署對計算設備基礎設施建設提出了極高的要求。

爲了滿足動辄擁有數十億參數模型的計算需求，在當前的條件下，無論是優化模型的 AI 訓練過程還是執行模型命令的 AI 推理過程，目前幾乎都部署在雲端。

雲端的強大算力固然能夠滿足大模型的胃口，但同時也帶來了問題。

一方面，完全依賴雲基礎設施進行運算會帶來更高的計算成本，據統計，即使基于大語言模型的搜索隻占一小部分，也會在同樣的搜索操作中給企業帶來每年數十億美元的增量成本。

另一方面，查詢需求達到高峰時，往往會出現高延時或排隊等待的情況。

事實上，由于 ChatGPT 的火爆，在高峰期時已經發生過擁堵。此外，要使用雲端算力，需要有良好的網絡環境，一旦用戶在沒有網絡或網絡環境不佳時，往往出現延時較高甚至無法連接到服務的問題。

作爲廠商，要想保證用戶在高峰期的使用體驗就必須在雲端配置足夠強大的算力，這不僅帶來了巨大的成本壓力，也會在非高峰期造成相當的資源浪費。

而作爲用戶，一個可能随時請假撂挑子的不穩定因素也與期待想去甚遠。

要想真正做到 " 無處不在 "，大模型需要放下雲端的高大全，走向本地終端的小而美。

AI 革命燒向終端

人工智能從雲端走向邊緣的趨勢早已不是新聞。在過去幾年物聯網和 5G 等技術的發展爲 AI 走向邊緣提供了強烈的需求。大型任務對應雲端，小型任務對應邊緣終端的 AI 部署模式已經相當成熟。

但與物聯網普遍的輕載要求不同，部署在終端的大模型依然需要相當的算力。如何把龐大的大模型塞進手機、XR 等終端設備中，是廠商要面對的第一大難題。

将原生的大模型直接 " 塞 " 進手機，顯然是移動設備相較于雲端孱弱的算力不可承受之重。

在雲端服務器上訓練的模型一般采用 32 位浮點運算，這種選擇帶來較高精确度的同時，也帶來了較高的負載。在高通第二代骁龍 8 的 Hexagon 處理器中，就采用 INT8 進度實現了模型從雲端到終端的遷移。

由此帶來的另一個問題是，在降低數據精度之後，如何保證生成式 AI 的體驗？

爲了适應新的需求，一種爲大模型設計的工作負載分級處理機制正在應運而生。

在這種分級機制中，終端将取代雲端成爲大模型工作的核心。在任務真正被大模型響應前，會進行預先分類。根據提示詞的長度、需要調用模型的大小以及任務本身的複雜度，推理任務會被分配到不同目的地。

如果模型大小、提示詞的長度和複雜度小于某個限定值，任務将會被分配在終端而不是雲端進行。部署在終端的模型也許沒有雲端聰明，但已經足夠處理這些輕度任務，向用戶提供可接受精确度下的答案。

隻有更爲複雜的任務才會被上傳至雲端處理，這不僅大大解放了雲端的算力，降低了部署大模型應用的成本，也爲用戶帶來了更好的體驗。在大多數情況下，用戶甚至不需要聯網，隻需要通過部署在本地的模型就能得到想要的答案。

終端和雲端也能夠協作。在某些情況下，用戶可以利用終端算力進行一些初步工作，在交由部署在雲端的大算力進一步處理。

比如在使用語音和大模型對話的流程中，可以通過終端部署的本地模型完成語音識别，将語音轉爲文字後再上傳雲端，雲端的大模型則用于生成對應的答案并将文本發送回終端。最後，終端再将文字答案轉化成語音，與用戶完成對話。

與将所有的工作負載放在雲端上相比，這種工作流程能夠大大節省計算和連接所需的帶寬。而用戶在使用過程中則幾乎感受不到流程變化産生的影響。

值得興奮的是，這并不是一種理論上的可能，而是已經投入現實中的應用。

在使用骁龍芯片的骁龍本上，生成式 AI 就能通過邊緣與雲端的協作，實現視頻會議語音轉錄、制定任務清單、生成完整演示文稿等操作。

在老黃激動宣布 "iPhone 時刻 " 的到來後，從雲端到終端的 " 降維 " 正在讓大模型真正實現的普及。

雷峰網雷峰網