AI 早已有之,但無論是深藍在國際象棋上戰勝卡斯帕羅夫,還是 AlphaGo 在圍棋上擊敗柯潔,都沒有像 ChatGPT 這樣引發全民熱潮。
正是這一波 AIGC ( 生成式 AI ) ,第一次讓 AI 來到了每一個普通人的身邊,真正改變了人們的日常生活、工作,而不再是一個高大上的科技概念。
如今無論是互聯網廠商還是傳統科技廠商,無論是手機廠商還是 PC 廠商,無論是芯片硬件廠商還是軟件廠商,自家産品不搞點 AI,都不好意思和人打招呼。
當然了,對于如今人們的生活和工作來說,最核心的設備一是智能手機,二是 PC 電腦,它們也都在 AI 的路上銜枚疾進,很多人也經常正路,PC AI 和手機 AI,究竟哪個才是王道?
首先公平地講,PC AI 和手機 AI 無所謂孰優孰劣,關鍵是誰更适合用在哪裏。
另一方面,對于 AI 而言,最基礎的前提一是算力是否夠強大、模型和算法是否夠豐富,二就是應用場景是否夠廣泛、靈活。
無需贅言,手機和 PC 相比無論 CPU 性能還是 GPU 性能,根本不在一個檔次,即便加入獨立的 AI 引擎,也是看不見尾燈的。
最新發布的高通骁龍 8 Gen3 已經升級爲第九代 AI 引擎,甚至将 Hexagon DSP 數字信号處理器升級爲專門的 NPU 神經網絡單元,并結合整個平台不同模塊的力量,AI 性能比上代幾乎翻番。
但即便如此,它也隻能處理 100 億參數的大語言模型,每秒執行 Token 的數量最多不過 20 個。
聯發科天玑 9300 配備了第七代 APU 處理器,具備生成式 AI 引擎,但也隻是實現了 70 億參數大語言模型端側落地、130 億參數大語言模型端側運行,70 億參數的生成速度也隻有每秒 20 Tokens。
更關鍵的是,手機端硬件平台性能優先,尤其是運行大模型必須的内存容量捉襟見肘,即便是高端配置的 16GB 也過根本不夠用。
爲此,聯發科不得不動用了各種優化手段,包括内存硬件壓縮、LoRA 融合、Fusion 技能擴充等等,才勉強夠用。
在 PC 端,16GB 内存如今已經是最起碼的配置,32GB 都随處可見,再加上 PC 處理器的強大算力,這些限制根本就不是事兒。
比如 Intel 13 代酷睿處理器,尚沒有獨立的 AI 引擎,但憑借 XPU 的加速,再加上簡單的低比特量化、軟件優化,隻需 16GB 内存,就可以通過 BigDL-LLM 框架,輕松運行 160 億參數的大語言模型,還可以快速對接新興模型,包括但不限于:LLAMA/LLAMA2、ChatGLM/ChatGLM2、MPT、Falcon、MOSS、Baichuan、QWen、Dolly、RedPajama、StarCoder、Whisper,等等。
這裏說的 BigDL-LLM,是專門針對 Intel 硬件的一個低比特量化設計開源框架,支持 INT3、INT4、INT5、INT8 等各種低比特數據精度,性能更好,内存占用更少。
基于這個框架,使用 i9-12900K 處理器,隻開啓 4 個核心來運行 ChatGLM2 60 億參數模型,生成效果就相當迅速,打開全部 8 個 P 核、8 個 E 核之後生成速度可達每秒 22 Tokens,已經不弱于很多雲側計算。
換言之,無論是需要将全部算力投入 AI 模型的運算,還是兼顧其他任務,PC 端都可以輕松完成。
可以看出,無論哪種情況,Intel PC 側都已經可以很好地完成相應的 AI 工作,提供令人滿意的算力和效率。
當然,60 億參數對于 PC 處理器來說是小菜一碟,換成 LLaMA2 130 億參數大語言模型、StarCoder 155 億參數代碼大模型,Intel 酷睿處理器也都能獲得良好的運行速度。
再換成 Arc 銳炫顯卡,速度就更快了,比如 ChatGLM2 模型中生成速度可以超過每秒 50 Tokens。
正是得益于如此快速的大語言模型運行速度,即便是一台輕薄筆記本,也可以在日常工作中及時提供各種幫助。
比如包括但不限于:聊天助手、情感分析、中英文翻譯、故事創作、生成大綱、信息提取、美食指南、旅遊規劃、代碼生成等等。
除了基于大語言模型的工作和生活助手,AIGC 最常使用的另一個場景就是 Stable Diffusion 文生圖、文勝文,這一點如今無論手機還是 PC 都可以做到。
當然,還是受制于算力,最新的手機平台雖然号稱可以在 1 秒鍾之内完成 Stable Diffusion 文生圖,但是無論生成中的叠代次數、引導系數、關鍵詞數量,還是圖片的尺寸、分辨率、質量,都不得不做出妥協,也導緻圖片的應用範圍有限。
在 PC 上,無論使用 CPU 還是 GPU,完全可以根據自己的需要,任意設定參數,花個幾分鍾,就能生成用于高級設計、創作的素材。
尤其是在 Intel 平台上,通過與 AI 社區積極合作,基于 OpenVINO PyTorch 後端的方案,可以通過 Pytorch API 讓社區開源模型很好地運行在 Intel 客戶端處理器、集成顯卡、獨立顯卡、專用 AI 引擎之上。
Stable Diffusion 中更是實現了 Automatic1111 WebUI,以及 FP16 的高精度,無論文生圖、圖生圖還是局部修複,都可以獲得更好的體驗。
事實上,如今已經有很多設計師、UP 主開始在 PC 和工作站上使用 Stable Diffusion 生成所需要的高質量素材,得到精美的 CG 動畫、模型等等,從而節省大量的精力和時間,将更多頭腦投入在創作階段。
接下來的酷睿 Ultra,更是将引入全新升級的 CPU/GPU 架構,以及全新的 NPU AI 獨立引擎。
它通過單獨設置的神經計算引擎、推理流水線,徹底接手端側的 AI 推理負載,其中 MAC 陣列可以高效執行矩陣算法和卷積運算,每周期效率多達 2048。
這樣的性能更是手機端望塵莫及的,速度超快的同時功耗更是極低,有利于延長筆記本續航時間。
更進一步,酷睿 Ultra AI 引擎還可以聯合 CPU、GPU,共同分擔 AI 負載中的不同工作,各自以最高效率執行,達到整體平台效能的最優化。
總之,無論是手機端還是 PC 端,AI 都是大勢所趨,性能會越來越好,模型和算法會越來越精妙,應用場景也會越來越豐富。
對于手機端而言,AIGC 可以随時随地應用,也可以實現很好的個性化,有着極佳的靈活性。
但同時也不得不受制于手機平台的性能、算力,也限制了應用場景,尤其是大模型不可能完整地從雲端搬到本地,導緻能實現的應用和生成速度存在天然局限,即便是在應用最直接、最廣泛的 AI 助手中也是如此,需要更多地走端雲合作的路子。
對于 PC 端而言,性能、算力可以幾乎無限制地擴展,能夠輕松、完整地運行各種大模型,無論你需要生成的圖片多麽精緻、文字多麽複雜,給予一定的時間都可以完成,而且這個時間正在快速縮短,因此在内容生産力的 AIGC 創作方面,PC 仍舊是不二之選。
雖然 PC 的便捷性不如手機,但如今的筆記本也在快速進化,推動着 AIGC 的快速演進和普及。
一方面,筆記本做得越來越輕薄、精緻,性能卻越來越好,比如在 Intel Evo 嚴苛認證的多年推動之下,筆記本的綜合性能、擴展能力、續航水平都達到了空前的高度,可以長時間、輕負擔地随時随地完成工作。
另一方面,筆記本開始有了自己的 AI 引擎,正快速開啓 AI PC 新時代,尤其是 Intel 最近啓動了聲勢浩大的 AI PC 加速計劃,鼓勵 AI 創新應用,很快就吸引了 100 多家 ISV 軟件合作夥伴,開發了 300 多項 AI 加速功能,預計到 2025 年将惠及上億台 PC。