2023 年科技圈最熱的概念無疑非 AI 大模型莫屬,不僅是國内的阿裏、百度、騰訊,海外的微軟、Meta、谷歌、亞馬遜都參與其中,就連做硬件的手機廠商如今似乎也在試圖講述一個 AI 賦能的故事。此前,vivo 的藍心大模型已經在 S18、X100 系列上運行、三星的 Gauss 大模型也即将出現在 Galaxy S24 系列上,OPPO 拿出了 AndesGPT、榮耀方面有榮耀魔方大模型,谷歌的 Gemini 同樣也有端側運行的 Gemini Nano。
就在 Android 陣營的友商紛紛開始搞起端側大模型的時候,蘋果方面自然也不甘落後。日前,蘋果公司的人工智能相關研究人員就表示,在将大模型部署到 iPhone 和其他内存有限的蘋果設備上取得了關鍵性突破,他們們發明了一種創新的閃存利用技術,可用于存儲大模型的數據,以應對内存限制的問題。
蘋果方面在一篇題爲《LLM in a flash: Efficient Large Language Model Inference with Limited Memory》的論文中,就介紹了一種可以在超出可用 DRAM 容量的設備上運行大模型的方法。其構建了一個以閃存爲基礎的推理成本模型,并使用窗口化(Windowing)以及行列捆綁(Row-Column Bundling)兩項關鍵技術,來最小化數據傳輸和最大化閃存吞吐量。
其中,窗口化讓蘋果的大模型不會每次都加載新的數據,而是重複使用部分已處理的數據。行列捆綁技術則是通過更有效地分組數據,讓大模型從閃存中更快的讀取數據。其實這項新技術在某種意義上來說,更像是他們剛剛發布的 MLX 框架的延伸。而 MLX 則是一個全新的機器學習框架,目的是可以在蘋果的芯片上更高效的運行各種機器學習模型,與其他框架的一個顯著區别就是統一内存模型。
換而言之,在過去一年裏,蘋果方面并沒有對這股 AI 大模型的熱潮無動于衷,而是在默默根據自身産品的特質來打造适合的大模型。在更小内存規模的基礎上運行端側大模型、而非擴大未來設備的内存規格,這就是蘋果方面給出的答案。
至此,幾乎所有主流手機廠商也都加入了将端側大模型部署到手機上的行列。
爲什麽這些手機廠商會對端側大模型感興趣呢?用小米集團 AI 實驗室主任、自然語言處理(NLP)首席科學家王斌此前在接受媒體采訪時曾表示," 等到春節左右,有人覺得至少要動手去做了,這個風暴來了,我們做技術的肯定不能置身事外,如果不入局就會在競争當中處于不利的位置 "。
毫無疑問,手機行業的現狀大家都很清楚,衰退已經持續了很長一段時間,因此各大廠商也都在期待如全面屏一般引爆這個市場的新概念。
此外,端側大模型也很好的承載了手機廠商對于新技術點燃消費者換機熱情的期望,并且他們相信人工智能會使得手機能夠幫助用戶實現更多的功能。但相比于運行在雲端的大模型,端側大模型的隐私洩露和數據安全風險則大幅降低,此外端側大模型還有個性化、定制化的潛力,能夠用于解決特定場景的問題。
更妙的是,端側大模型也意味着手機會對用戶需求的理解更上一層樓,遠非目前名爲智能助手、實則 " 人工智障 " 的功能可比肩。再加上,如果端側大模型可以控制和調用别的應用,就好像谷歌的 AI Core 一般,那麽未來手機廠商和第三方應用之間的格局可能就會迎來天翻地覆的改變,手機廠商或将擁有實質上影響第三方應用的能力,這背後的利益可就無法估量了。
隻不過相比于其他手機廠商,蘋果想要在 iPhone 上部署端側大模型的難度其實更高。目前,手機上已經有了不少端側大模型可供用戶體驗,但在實際使用過程中,抛開 Android 系統本身的占用,8GB 内存的機型一旦運行端側大模型幾乎就什麽都幹不了。事實上,内存對于大模型的性能有着至關重要的作用,比如 AMD 剛剛發布的 AI 芯片 MI300 系列,就正是主打大内存高帶寬。
此前已經有人使用搭載蘋果 M 系列芯片的機型運行大模型,測試的結果是統一内存可以讓芯片運行更大規模的大模型,可缺點就是由于内存帶寬低,使得推理速度不那麽理想。即便蘋果沒有拿出新的相關技術,實際上 iPhone 也能運行端側大模型,但結果是推理速度可能用戶會無法忍受。而最小化數據傳輸、并最大化閃存吞吐量,就剛好能夠解決這個問題。
目前,iPhone 15 和 iPhone 15 Plus 均配備的是 6GB 内存 ,iPhone 15 Pro 和 iPhone 15 Pro Max 則提升至 8GB 内存。現階段外界推測,爲了在 iPhone 上運行端側大模型,蘋果方面很可能會給 iPhone 16 系列新機加大内存配置。但蘋果設備的内存價格是衆所周知的,繼續給 iPhone 加内存的結果可能就會使得其售價進一步上漲。
要知道,上一次 iPhone 大規模漲價的結果還是将市場份額拱手讓人,所以在如今 Android 旗艦的産品力不斷追趕的情況下,蘋果方面不太可能實施漲價。與此同時,大模型的底層技術 Transformers 架構其實就是基于分層推理的,而分層加載調度又是當下優化内存的主要方式,因此兩者結合就是蘋果所給出的解決方案。
這樣看來,蘋果方面爲了不加内存而爆發的潛能,着實是讓人驚歎。
【本文圖片來自網絡】