把3B端側大模型裝進手機，vivo還發布了适配手機的智能體

作者丨邱曉芬

編輯丨蘇建勳

10 月 10 日，2024 vivo 開發者大會（ODC）在深圳國際會展中心舉辦。此次，vivo 秀出了他們在大模型上的全新進展。

最近兩年的 vivo 開發者大會上，AI 一直占據了最大的篇幅—— vivo AI 全球研究院院長周圍向 36 氪在内的媒體表示，投入 AI 的 6 年來，vivo 在 AI 方面的投入，累計超過 230 億元。

在去年開發者大會上，vivo 發布了自研十億、百億、千億三個參數量級、由 5 款語言大模型組成的藍心大模型矩陣。如果說，去年 vivo 在大模型上更追求 " 大而全 "，經過一年的沉澱，vivo 今年在 AI 上的戰略，更追求 AI 落地、以及與實際場景的結合。

藍心大模型矩陣

端側大模型與手機場景天然匹配，是這次開發者大會 AI 部分的重點。此次，vivo 發布了 30 億參數量級的藍心端側大模型 ( 下稱 " 藍心 3B" ) ——而此前，手機廠商基本上在卷 6B、7B 參數量的模型。

周圍表示，過去行業對于大模型量級有着尺寸上限的執着追求。不過，過度追求端側大參數并無意義，在手機有限的空間裏，反而擠占内存和電量，也起不到什麽作用。而 vivo 團隊發現，3B 的模型才是最适合手機端側應用的參數量。

根據介紹，在對話寫作、摘要總結、信息抽取等能力上，" 藍心 3B" 幾乎可比肩行業 7B-9B 模型。vivo 方面給出了一系列參數對比——相比藍心 7B，藍心 3B 性能提升了 300%、功耗優化達 46%、内存占用僅 1.4GB。

不過，vivo 的 " 藍心大模型矩陣 " 不僅僅隻有端側大模型，vivo 此次也公布了他們其他類型的大模型（語音、圖像、多模态）的升級。

比如，vivo 如今全新的語言大模型，是基于千億級的雲端大模型，此次 vivo 重點優化了意圖理解和任務規劃能力，相比去年，整體能力提升 30%；

vivo 全新的藍心語音大模型，則強化了準确理解自然語義，模拟人聲的能力；

vivo 的藍心圖像大模型，今年則着重強化了東方美學和中國特色；

藍心多模态大模型，則升級了其視覺感知理解能力。

周圍表示，目前雲端大模型在手機上的調用，成本已經下降至" 不到一分錢一次 "。

降本，不僅僅源于雲端成本下降，也由于 vivo 持續推進大規模端側普及，" 今年我們有十幾個、數十個功能都端側化了，以後可能閑聊、識别、決策、執行全部都端側化了 "。

截至目前，vivo 的 AI 能力已覆蓋全球 60 多個國家和地區，服務超過 5 億手機用戶，大模型 token 輸出量超過了 3 萬億個。

不過，種種大模型升級，打好了底層技術設施，而要讓用戶感知到，還需要進一步産品化。在此次開發者大會上， vivo 基于藍心大模型技術，在手機上探索落地了"PhoneGPT" 手機智能體。

PhoneGPT

從演示中，這一智能體重構了用戶與手機的交互方式。比如，基于 vivo 的語音交互 " 藍心小 V"，用戶可以對屏幕界面進行識别操作，直接接管音頻進行自主對話，以完成用戶交代的任務，例如幫助用戶去訂餐廳、訂咖啡等等。

AI 在手機上的實現，離不開強大操作系統的支撐，vivo 也在以藍心大模型爲基礎技術底座，探索 AI 與 OS 的深度融合。此次開發者大會上，vivo 推出新一代操作系統 " 原系統 5"（OriginOS 5）。

周圍表示，操作系統的重構包括，重構完整的交互、數字服務體驗。

在交互體驗上，基于 " 原系統 5"，用戶可以用一按一複制、一按一拖拽，滿足用戶的多任務需求。此外，系統還支持全新的語音，比如苗家、壯族的方言等等。

在重構數字服務體驗方面，在藍心多模态大模型技術的加持下，vivo 全新推出小 V 圈搜功能。

據 vivo 方面介紹，在既有的文本搜索基礎上，通過圖像識别與圈選交互的結合，精準搜索對象，提供更便捷的 " 一圈即搜 "。

原系統 5 還全新升級了 " 原子島 " 功能，除通知功能外，" 藍心小 V" 的意圖識别能力，可以分析、判斷用戶當前的需求，主動爲用戶提供後項服務。

end