讓子彈飛一會
" 自 1971 年的 Intel4004 ——人類首款商用微處理器的誕生以來,這顆由矽材料打造的人類智慧的象征,已經曆了超過半個世紀的風風雨雨。
在這個過程中,處理器的演進曆程充滿了激烈的品牌競争和市場需求的不斷變遷。不同的時代見證了處理器發展的不同趨勢:有過追求 CPU 主頻至極緻的年代,有過對多核心架構探索無止境的時期,也有過對指令集進行深度優化和改革的時刻。
此外,随着智能手機、智能汽車的崛起,研發重心也從桌面計算轉向了移動端。可以說,每一次處理器的重大升級和變革都是應時代需求而生的産物。這不僅是技術進步的必然結果,也是科技産業發展的生動注解。"
Intel 4004
Intel i9-13900K
在 2023 年的科技領域,無論是桌面還是移動處理器,它們都已經開始步入了 AI 的新紀元。自 OpenAI 的 ChatGPT 引發了 AI 技術的爆發性增長後,AI 已經成爲了 2023 年全球科技界的主宰主題。位于科技漩渦中心的處理器市場自然也受到了這股風潮的影響。
圖片源自于互聯網
下半年以來,各大處理器品牌都開始着手布局 AI 産品線。NVIDIA 以其無可匹敵的地位推出了 H800 和 A800 等專業 AI 計算加速卡。
而在消費級桌面端市場,Intel 和 AMD 也不甘示弱,Intel 計劃在其第 14 代處理器 Meteor Lake 中首次集成 AI 加速引擎(NPU),而 AMD 在 2023 年發布的 7040 系列處理器中集成了 AMD Ryzen AI 引擎,這是一款專門用于神經網絡 AI 運算的處理單元,最高可實現每秒十萬億次的 AI 運算。
在移動設備領域,高通和聯發科也将 AI 計算能力作爲其年度旗艦芯片的重點宣傳對象。蘋果的 A17pro 和 M3 也在持續優化其 NPU 架構和增加神經引擎的核心數量,以期在蘋果未來的 AI 生态中發揮出更大的作用。這些新動态都預示着,AI 技術不僅正在颠覆我們的生活,更在深度重塑全球的科技格局。
骁龍 8Gen3 官方宣傳資料
當前 AI 在桌面端上的表現我們有目共睹,LLMs 與 SDXL 爲首的應用正在對多個行業産生着重要沖擊,而移動端側仿佛在 2023Q4 也開始了 " 春秋之戰 "。
那事實上,移動端側的 AI 計算能力到底如何了呢?作爲普通消費者是否對移動端本地化 AI 計算有所需求呢?
01 7B,10B,13B 參數 AI 模型,這個 B 是個什麽玩意?
AI 生成 -Midjourney
相信很多小夥伴都看到 " 高和聯 " 兩家旗艦芯片的宣發時都會注意到,他們都将成功運行 XXB(多少億)參數 AI 大語言模型的字眼作爲營銷重點。
圖片源自于互聯網
那麽這個 B 或者說參數量級是什麽意思?在 AI 模型領域,"B" 通常代表 "billion",也就是十億,它指的是模型參數的數量。例如,"LLama-2-7B" 中的 "7B" 意味着這個模型有大約 70 億個參數。
Meta 開發的 LLama-2-7B 模型,服務于移動設備或低功耗 PC
參數數量是衡量模型複雜度的一個重要指标。一般來說,參數越多,模型的複雜度越高,對數據的拟合能力越強。簡單說,這個數字很是關鍵,通常情況下,參數越多,模型的處理能力和理解複雜性越強,但也需要更多的計算資源。
豐富的模型參數數量如同給一位廚師以豐富的食材原料 ( AI 生成 -Midjourney )
02 那參數量是越大越好嗎?
不見得,在某些情況下,特化的小模型可能在特定任務或場景上表現得比大模型更好。這是因爲小模型可以更好地針對特定的任務進行優化,而大模型可能在嘗試适應更廣泛的任務時失去了一些特定性。
例如,假設我正在開發一款專注于美容美顔主題的 AI 大語言模型。我收集了所有關于美容養顔的網絡資料,最終模型的參數量達到了 30 億(3B)。盡管參數量較小,但模型能夠更精确地針對特定任務進行優化,有效避免過拟合問題。同時,模型可以專注于與特定任務相關的特征,無需學習大型模型中的無關特征。相比之下,這種專注性使得小型模型在某些方面超越了參數量爲 30B 或 50B 的通用大型模型。
AI 生成 -Midjourney
從某開源 AI 模型的測試成績中,我們也可以看到這一點。在這次測試中,LLaMA2-13B 模型的子項分數和平均分數均優于 Aquila2-34B 模型。
圖片源自于互聯網
03 主流的 AI 大語言模型的參數量是多少?
以我們熟知的 ChatGPT 爲例,其 GPT-3.5 版本(于 2022 年 12 月發布)擁有 1750 億(175B)參數。而目前我們最常用、最熟悉的 GPT-4 在完整的 120 層模型中擁有 18000 億(1800B)參數。另一個表現出色的模型,Claude 2,其參數量爲 1300 億(130B)。
圖片源自于互聯網
在國産模型方面,盡管百度的文心一言沒有公開其參數量,但根據我們的推算,其最新的 4.0 版本的參數量預計也已超過千億,即 1000 億(100B)以上。最近流行的國内大模型月之暗面(Moonshot)的參數量也超過了千億。在部分小模型中,阿裏雲的通義千問開源版本達到了 140 億(14B)參數量。
圖片源自于截圖
04 移動端處理 AI 性能的能力
盡管 MTK 9300 和高通 8gen3 這兩款旗艦芯片沒有公開其實際運行模型的測試過程,我們仍可以從它們的聲明中獲取一些信息。MTK 9300 強調,它可以在運行參數量爲 70 億(7B)的模型時實現 20 tokens/s 的性能。
需要注意的是,"tokens" 這個詞在這裏的含義可能會有所不同,它可能指一個詞、一個字符,或者在某些語言中的一個字母。
MTK 9300 的官方宣傳素材
在高通方面,他們聲明其 8gen3 芯片在運行 Meta 開發的 Llama 2 模型時(Llama 2 有 7B、13B 和 70B 版本,如果沒有特别強調,那麽一般指的是 7B 版本)可以達到 15 tokens/s 的性能。
高通骁龍 8Gen3 官方宣傳資料
根據一些經驗來判斷,在 7B 大小的模型中,二者的速度都已經夠快了,可以較爲流暢自然的速度來實現文字對話或者實時的語音識别與翻譯。
05 移動端處理 AI 性能的性能巨大消耗
雖然移動設備如手機和平闆電腦确實可以在本地運行 AI 模型,但由于這些設備更多地用于個人用途,運行 AI 模型時會調用一些特定的資源。首當其沖的便是神經處理單元(NPU),這是今年幾款旗艦 SoC 芯片(如 A17pro、8Gen3、9300、X Elite 等)都在強調的部分。NPU 是專門用于神經網絡處理的處理器,擁有高效的矩陣乘法和卷積運算能力。在處理 AI 任務時,NPU 主要用于執行模型的推理。
AI 生成 -Midjourney
此外,手機的中央處理單元(CPU)和圖形處理單元(GPU)也會實時參與其中,負責執行模型的解碼、預處理和後處理等任務。同時,手機的随機存取 内存 (RAM)也會被大量使用。對于熟悉 AI 模型的用戶來說,無論是在 PC 本地的 LLMS 還是 SDXL 上,對内存和顯存的占用都是相當大的。在移動設備上,RAM 主要用于存儲 AI 模型、數據和中間結果。在處理 AI 任務時,内存的帶寬和容量是影響性能的重要因素。
圖片源自于互聯網
對用戶實際使用影響最大的部分是大量的 RAM 消耗。在 MTK 9300 的官方發布中,聯發科官方介紹說,一個擁有 1300 億參數的 AI 大模型大約需要 13GB 的内存(在 INT8 精度下)才能運行。因此,即使是一個擁有 70 億參數的模型,也大約需要 7GB 的内存。盡管存在一些技術,如 INT4 量化(通過降低計算精度以減少内存消耗),但是在完整調用運行一個 7B 的 AI 模型時,也需要至少 4GB 的内存消耗。這對于 RAM 資源本就非常寶貴的 Android 系統來說,無疑是雪上加霜。
圖片源自于互聯網
可以想象,如果未來本地的 AI 模型普及開來,當前主流的 8GB 手機 RAM 肯定是不夠用的。一旦打開 AI 程序,用戶可能會面臨其他應用被強制關閉,以及由于反複調用部分應用而導緻的系統卡頓等問題。
06 AI 落地移動端?讓子彈飛一會
不少小夥伴看到這裏,都以爲我在唱空移動端側 AI,但其實錯了,其實我對于移動端 AI 應用是一個多頭。畢竟手機是我們日常生活中最常用的智能設備,而且我們也看到,從 OpenAI 布局移動版的 ChatGPT,到國内大模型紛紛轉戰移動端 APP,再到手機廠商的 " 百模大戰 ",還有智能汽車領域的算力大辯論,都表明移動端的 AI 應用潛力巨大。
圖片源自于互聯網
而發展方向上,我認爲移動端側當前十分強調的本地 LLMs(大語言模型)并不會是最終的發力方向,因爲由于在精度的限制,本地 LLMs 的質量可能堪憂,即使可以輸出較長的對話内容,但其邏輯性與合理性上都會與已知的 PC 端産品有較大的差距。
那麽移動端該如何發展本的 AI 呢?我認爲首當其沖的應該是圖像識别與 TTS(語音合成系統)。移動設備(涵蓋手機與智能汽車)作爲視覺與聽覺傳播的重要媒介,其能帶來的遠不止文字流的輸出。
關于圖像識别功能,随着手機攝像頭技術的不斷進步,圖像識别在移動端的應用越來越廣泛。例如,人臉識别、物體識别、場景識别等。未來,随着手機端 AI 算力的提升,圖像識别的準确性和實時性将得到顯著改善。
GPT 長眼睛了,史詩級功能悄咪咪發布!
此外,随着智能汽車移動端 AI 計算能力的提升,圖像識别技術在智能汽車中的應用将變得更加廣泛和精準。例如,自動駕駛系統可以借助圖像識别技術實時識别路況、标志牌、行人以及其他車輛,從而做出準确的駕駛決策。同時還可以衍生出圖像識别可以用于識别車輛的周圍環境,并提供相關的服務信息。例如,車輛可以通過圖像識别來識别附近的餐廳、酒店等信息,并提供導航和預訂等服務,催生新的業态。
另外一點就是語音合成(TTS)這也是本次 OpenAI 開發者大會中提及的重點内容,該技術結合 AI,可以将文本轉換爲自然語音,廣泛應用于智能助手、語音導航、語音閱讀等場景。随着手機端 AI 算力的提升,TTS 技術将更加成熟,生成的語音将更加自然、流暢。配合智能 AI 助理等功能來實現鋼鐵俠中 " 賈維斯 " 的科幻場景落實。
圖片源自于互聯網
同時,移動端側越來越強大的 AI 算力,還可以讓 V2V(車車互聯)慢慢實現,通過 AI 和 V2V 技術,車輛可以共享路況信息,如擁堵情況、事故、路面狀況等。這些信息可以幫助駕駛員或自動駕駛系統做出更好的導航決策,提高道路使用效率。甚至,可以自動與同目的地的車輛組成車隊,AI 可以控制一組車輛以固定的速度和距離行駛,從而提高燃油效率和道路容量。
圖片源自于互聯網
在對未來人工智能市場的展望中,可以明确地預見到,在日常民用領域,移動端将無疑占據主導地位。目前,移動設備在運行大規模 AI 模型時,的确面臨着内存和計算資源的限制。然而,随着科技的持續進步,我們有理由相信這些挑戰将會被逐步克服。
作爲消費者,在面對如潮水般湧來的 AI 營銷攻勢時,我們需要保持清醒的判斷力,同時也應對新興技術抱有好奇心和期待。畢竟,自信息技術革命以來,很少有哪一項技術能引發如此廣泛的關注,并激發全球科技巨頭展開如此激烈的競争。人類曆史已經多次證明,隻有競争的時代才是科技進步最快的時代,才是人類文明的閃耀時刻。