在 AI 浪潮下,智能手機正迎來新一輪物種進化。矽星人首屆 AI 創造者大會(ACC 2024)邀請到了 vivo 副總裁、vivo AI 研究院院長周圍,以及面壁智能聯合創始人、CEO 李大海,一起探讨端側 AI 如何重新定義手機,創造真正的 AI Phone。vivo 是中國乃至全球最早布局 AI 手機的終端廠商,面壁智能是中國乃至全球率先專注于端側 " 小語言模型 " 的 AI 創業公司。從端側模型的技術突破,到手機作爲最佳 AI 載體的獨特價值;從交互體驗的重構,到智能體生态的構建,這場對話爲我們展現了 AI 如何重塑智能手機的圖景。特别是在智能體協同和産業标準方面的讨論,亦反映出産業在标準統一和生态共建方面的新共識。
以下爲對話實錄:
主持人 | 矽星人創始人 &CEO 駱轶航
嘉賓 | vivo 副總裁、OS 産品副總裁、vivo AI 全球研究院院長 周圍
嘉賓 | 面壁智能聯合創始人 &CEO 李大海
爲什麽 AI 模型需要被塞進手機裏?
駱轶航:這個環節我蓄謀已久,在座的兩位都有其獨特之處。就我所知,雖然不敢說是全球範圍内,但 vivo 确實是中國最早探索 AI 如何深度重塑智能手機的公司,尤其是在大模型層面。我說得對嗎?
周圍:感謝!
駱轶航:2022 年 11 月 30 日,ChatGPT 的推出,對大模型來說是一個重要的分水嶺。但在手機領域,這個時間點要往前推。我們不能認爲 2022 年 11 月 30 日探索 AI 手機的就是先行者。我們應該追溯到 Transformer 架構出現的時候,那時就開始研究和探索的才是真正的先行者,而 vivo 探索把手機放到 AI 裏,差不多就在 Transformer 問世之後不久。再說到面壁智能,它在中國确實是最早探索如何将模型小型化并部署到終端設備的公司之一。從 2023 年 3 月到 9 月,全球和中國的大模型公司都在快速擴展模型規模,從百億參數擴展到萬億參數。而将模型再從萬億參數縮減到 120 億甚至 80 億參數的,全球隻有兩家公司:法國的 Mistral 和中國的面壁智能。我很想請教周總,你們(vivo)爲什麽會這麽早就開始布局系統層面的 AI 戰略?在 ChatGPT 出現後,又是如何加速這一進程的?
周圍:感謝駱總的關注。确實,我們是較早将 AI 與手機結合的企業。談到爲什麽投入 AI 研究,這要追溯到 2018 年 3 月 vivo 全球研究院成立之時。到 2019 年,我們已有超過 1000 名人工智能工程師,是當時行業内較早重投 AI 的公司。我們的創始人沈炜認爲,人工智能技術、芯片技術以及 5G、6G 将是未來幾十年科技創新的基礎技術。雖然當時對此認知并不十分清晰,但我們堅定地選擇了重點投入這個領域。我恰好是在 Transformer 出現不久的 2018 年加入公司的,當時我第一次看到了通過知識賦能大模型的機會。到 2020 年,我們見證了大模型 1.0 的誕生。早在 2019 年 11 月,我們就在北京發布了第一款将機器學習與手機結合的智慧手機。不過事實證明,傳統人工智能與手機的結合遠不如大模型來得有想象力。到了 2023 年 GPT-3.5 問世後,我們更加清晰地看到了大模型與手機結合的廣闊前景。
駱轶航:是的,因爲之前已經在機器學習領域做了大量探索。
周圍:我們團隊一直在持續關注這個領域。在 2023 年 11 月 1 日,我們發布了 " 藍心 " 大模型矩陣,包括 10 億、70 億、130 億、500 億和 700 億參數的五個大模型,它們都在綜合評分中名列前茅。最初我們投入人工智能研發,是因爲認識到這是一個重要的技術創新賽道。在大模型與手機結合的第二個節點,我們深入思考究竟能爲用戶帶來什麽價值。我們認爲,手機作爲連接數字世界的橋梁,完全有機會打造成爲用戶的個人專屬智能管家。基于這個認知,我們開展了一系列工作。智能管家應具備五個特點:首先,要能感知識别用戶意圖;其次,要能形成共同記憶;第三,是具備決策能力;第四,要能像人一樣操作手機裏的衆多應用;第五,要能像助理一樣管理日常事務。vivo 正是基于這些特點在推進相關工作。
駱轶航:這五點完全符合我們對 AI Agent 的理解維度。
周圍:從用戶層面來看,我們有三個認知要點:首先,人工智能大模型的加入是爲了讓設備更自然、更符合人的直覺。其次,我們要用大模型重構整個系統,包括手機中的各種數字能力以及系統本身。第三,重構數字世界不是最終目的,而是要更好地服務用戶,讓手機在現實生活中發揮更高效、簡單、主動、智能的作用。
駱轶航:這三點分别對應了符合形态需求、數據處理優化和操作便捷性,非常重要。你很好地回顧了整個發展曆程:從最初将 AI 确定爲發展方向,到機器學習的應用,再到 ChatGPT 之後的加速發展,以及對這一領域理解的不斷深化,最終發展成現在的 OriginOS 5 等系統級 AI。
周圍:去年我們實現了自研大模型的目标,這背後有充分的邏輯和理由。接下來,我們将大模型與手機結合,構建了個人助理的五個框架。在未來一到三年内,我們将基于用戶需求和應用場景,提供更多實際價值,同時解決隐私保護和端側部署等問題。這些都是我們到 2027 年要持續推進的工作。
駱轶航:這個發展路徑非常清晰。接下來我想請教大海關于面壁智能創業初心的問題。面壁智能給我留下深刻印象,特别是在今年春節前首次發布小模型 MiniCPM" 小鋼炮 " 的時候。當時那場活動也是我主持的。有兩點讓我感到震驚:第一,你們與 Mistral 在同一時期推出産品,顯然不是跟風之作;第二,你們一步到位實現了多模态,這在當時是很少見的。那時大多數公司都在追求更大的模型,而你們選擇做小模型并在端側部署,而且還是多模态。今年年初的時候還很少有人讨論 AI 與手機的結合。外界對此有兩種猜測:一是延續清華大學自然語言實驗室(NLP Lab)的研究路徑,二是受限于資金和算力。我很想知道,你們最初選擇端側路線的真正原因是什麽?
李大海:選擇端側是基于我們的技術洞察。這建立在一個重要前提上:模型規模擴大時,必須保持知識密度的一緻性才能持續提升能力。我們認爲知識密度可能是大模型發展的第一性原理,而不是簡單的模型參數。這就像早期搜索引擎發展時,人們逐漸從關注網頁數量轉向關注實際能力一樣。能力與所需參數量的關系是最核心的競争力,因爲它代表了 ROI 和效率,這是第一性的原理。就像當年美國造出第一台計算機時占據了三個房間,但當時沒有人說要造一個占半個城的計算機,今年大模型剛出來的時候,就是這個邏輯。
駱轶航:就像摩爾定律,描述的也是一個半導體處理單元不斷微型化的過程。
李大海:是的。在密度提升的前提下,我們有機會做出更好的模型。今年 2 月我們就實現了超越 Mistral 7B 性能的模型,這證明了技術的可行性。這代表着大模型廠商和芯片廠商的雙向奔赴。我們在 2 月份就将 GPT-3 級别的能力實現了端側部署,9 月份又将 GPT-3.5 水平帶到了端側。我們的下一個目标是在 2026 年底前将當前 GPT-4 的能力帶到端側。
駱轶航:那 OpenAI o1 的能力什麽時候能實現端側部署?這個挑戰很大啊。
李大海:實際上,o1 這樣的模型可能并不适合端側部署。因爲它代表的是 " 慢思考 " 能力,而終端設備最需要的是快速感知能力。這就涉及到端雲協同的問題。端側需要快速感知用戶并利用隐私信息,這正是手機上的個人助理特别有價值的地方。但對于複雜的思考任務,我們可以交給雲端更大參數量的模型來處理。
駱轶航:這可能确實不是端側用戶當前最迫切需要的體驗。
李大海:既然是慢思考,用一秒鍾時間訪問雲端也是可以接受的。我們的發展方向不是追求在端側複制 o1,而是在 GPT 系列的發展路線上,将更強的泛化能力裝入更小的參數模型中。端側要解決的是 " 具身化 " 問題,需要敏捷的感知和個性化決策能力。比如利用用戶在手機各個應用中的上下文信息。
駱轶航:就是将上下文作爲本地數據庫的語料。
李大海:是的。在達到 GPT-3.5 水平時,我們重點支持三個能力:端側無限長文本處理、更好的 RAG(增強檢索)利用本地資源,以及更好的函數調用來操作本地設備功能,這适用于手機、機器人等各類設備。
駱轶航:這是一種降本增效的能力。
李大海:這是具身化的方向,與 o1 的方向完全不同。
駱轶航:周總,您怎麽看待面壁智能這種雙向奔赴的想法?就是端側模型不斷變小,而模型性能不斷提升,它們最終會在 vivo 手機上相遇,這件事可能實現嗎?
周圍:我特别認可大海總對模型端側化的路徑。這是我們必須攻克的難關,無論是具身智能還是手機智能終端。未來手機的智能不會局限于某個功能的提升,而是深度融合的個人智能呈現。如果靠雲端感知會太慢,而且出于隐私和價值觀考慮,數據不能離開終端,必須有端側解決方案。另外,手機每天要進行數千次本地決策,如果都在雲端處理,成本和性能都無法接受。比如輸入法選詞,人眼需要每秒 26 個字的速度才感覺流暢,這沒有端側智能是無法實現的。
我們在 10 月 10 日發布的 3B 端側智能,性能是去年 7B 的兩倍。去年 7B 主要用于轉錄、摘要和文生文,但無法處理複雜的邏輯拆解,所以我們開發了 13B,結果 13B 需要 7 點幾 G 的内存,3B 需要 3 點幾 G 的内存,考慮到手機通常是 8G 内存,我們最終選擇了 3B 作爲端側标準尺寸。3B 僅需 1G 内存,400 毫安電流,每秒 80 字,能很好地支持感知、推理、決策、記憶和執行功能。
除了基礎端側化,我們還要爲智能端側化做儲備。今年 vivo 不僅實現了 3B 的端側化,還完成了審核能力的端側化。雖然審核用的是百億級模型,但隻需要幾十兆内存。我們還實現了語音大模型的端側化。我們的策略是将現有雲端能力盡可能端側化,隻保留慢推理在雲端。
爲什麽實現端側智能,非得靠手機?
駱轶航:慢推理很多時候是深度推理,基于思維鏈的深度推理的放在雲側,其他能放到端側的極限化放到端側。周圍老師剛才講這個 13B 的模型占 7G 内存放到手機,某種程度上來說,端側模型是手機形态物理極限,推着大家要實現它,大家拼命爲它想辦法的結果。可是爲什麽非得是手機?爲什麽手機是 AI 模型實現最好的形态?而不是其他的設備?當然周總可能會說,我是做手機的,它肯定是最好的形态,我們怎麽看待這個問題?
周圍:我們的創始人沈炜沈總認爲,AI 是不能創造一個全新品類的。它隻能把原來已有的品類做到體驗更好,這是我們的長期主義,或者是平常心的堅持。所以我們認爲因爲手機現在是一個比較大的行業,所以我們先在手機上落地。實際上我們可以看到,像 AR、VR、AI Pin 這些品類都存在,是因爲這些品類,商業化的規模不是太大。所以 AI 進入影響力小,規模小,但是我相信 AR 眼鏡現在已經很好的在進入,很快看到繁榮了。
駱轶航:vivo 也不僅僅是家手機公司。大海老師怎麽看?爲什麽手機是最合适的 AI 場景?
李大海:從抽象角度看,手機擁有最豐富的數據,因此 AI 在手機上能發揮最大價值。在與做 AI 硬件創業的朋友交流時,他們必須回答一個問題:爲什麽這個 AI 硬件功能不能在手機上實現?這說明手機天然具有很強的競争力。
周圍:手機是開放的生态,我們無意取代任何行業,隻是在做連接和平衡。我們認爲,未來具備大模型支持的手機,在能力分發和行業分發方面,與傳統智能手機的商業模式并無本質差異。
駱轶航:會有進一步的演進吧?
周圍:無非是從原來的應用程序、應用商店,轉向智能體分發。
駱轶航:這個話題很值得深入讨論。
李大海:我想澄清一下剛才的觀點。從新硬件角度看,關鍵是要判斷新智能硬件是否有存在必要,還是其提供的價值手機都能實現。如果手機能實現,這個智能硬件就難以在商業上立足。手機确實有大量場景和數據,AI 必然能在其上發揮更大的杠杆作用。當然,我們也看到 AR 眼鏡和 AI Pin 這類産品在彌補手機的不足,因爲手機通常需要用戶主動交互才能獲取信息。比如我們聊天時,手機并不能、也不應該監聽内容。這些新設備可以作爲手機之外的重要數據來源。當這些強輸入設備的數據與手機數據結合,手機仍然能發揮強大的樞紐作用。所以我認爲手機地位非常重要。
駱轶航:它在連接場景、連接數據、歸集數據方面是很好的樞紐。
李大海:對!
駱轶航:手機是個很特别的設備,這個尺寸拿在手裏很方便,可以進行多種操作,重量适中,有足夠的内存和算力,能實現很多存儲場景和其他功能。
李大海:我們開玩笑說,手機已經成爲現代人的 " 器官 "。你剛才提到的接入成本是個很好的說法,手機與人的結合成本很低。相比之下,腦機接口、AR 眼鏡等新方案的使用門檻都很高。這種低接入成本是 AI 難以取代的價值。
駱轶航:我玩過各種 AR 眼鏡,那些設備接入體驗很酷,場景也很有趣。我現在用的手機是 Pixel 9 Pro,它能一鍵喚醒 Gemini,Gemini 可以全局操作數據,能幫我查找特定内容,操作深度很強。我發現如果模型和手機都足夠好用,結合起來效果特别棒,這給了我很大啓發。
李大海:因爲 Gemini 和 Pixel 是 Google 的官方手機,它利用系統能力實現了 Gemini 和 Pixel 的雙向集成。
爲什麽手機上的 APP 會演化成個人智能體?
駱轶航:這樣看,vivo 也是雙向集成。一個模型,通過類似 OriginOS 這樣的系統,與設備融合也是可行的。說到手機體驗的改變,我們來具體分析一下周圍總之前提到的觀點。過去手機系統主要做應用分發,一個手機裝幾十個 APP,系統要能調用更多功能。而現在像 vivo 的 " 藍心小 V",以及 Google 的 Gemini,它們在手機上調取 APP 的能力很強。未來這種調取,會從調取 APP 轉向調取個人智能體。我看到有人持不同觀點,認爲未來手機上不會有那麽多 APP,剛才和王叢總私下交流時也談到這點。随着 AI 的深入發展,您覺得人們對手機的使用體驗會有哪些變化?我們還是很重視圖形交互界面(GUI),但這種形态可能會如何演變?
周圍:手機是人與數字世界的連接橋梁,我們通過手機使用各種服務和功能,包括聽、說、看、觸、拍、掃、感知等。随着大模型的引入,必然會出現極緻的體驗提升。比如今年 vivo 發布的手機已能理解苗語、粵語等少數民族語言和方言,還能識别情緒并做出回應。就像從電阻式到電容式觸摸屏的變革帶來了更自然直觀的交互體驗一樣,大模型也帶來了革命性變化。現在手機不隻是點擊滑動,還能實現流暢的查按拖拽和圈選等操作,這背後都有大模型的支持。
在意圖識别方面,比如當用戶圈選一個地址時,系統會立即判斷用戶是想保存、導航還是分享。我們 vivo 手機的智能島會相應推出地圖、便簽、好友等功能。我們并沒有取代生态,而是更好地整合了微信、地圖、便簽等應用。簡言之,過去是人找服務,現在是服務主動呈現。更進一步的是主動決策,比如系統發現你喜歡川菜,會主動詢問是否需要訂餐。這是我們 2024 年的基礎建設工作,到 2025、2026 年,我們會不斷完善這些場景和應用,提升用戶體驗。
駱轶航:也就是說,多模态能力和模型能力會推動更多手勢和操作的識别,不隻是觸屏交互,而是識别動作意圖并推薦相應服務,實現自主規劃。
周圍:對。智能體的出現,比如百度高德、騰訊音樂推出的智能體,我們作爲手機連接中心,推出智能體廣場,讓各種智能體在這裏與用戶高效匹配。
駱轶航:同時也是管理中心。
李大海:也是連接中心和分發中心。
周圍:作爲手機廠商,我們要做基礎建設工作,要爲百度地圖、高德地圖等數據的接入制定行業公共标準。
駱轶航:那麽 " 智能體廣場 " 是什麽?是不是就是智能體的應用商店?它有什麽接口标準?什麽是智能體?什麽是符合标準的智能體?我們是否在推動與國家相關研究機構和官方建立這樣的标準?友商在做什麽?
周圍:我來解釋一下,我們今年發布了 vivo 關于智能體的白皮書。但我們不是要獨自構建生态,而是要共建。下個月,我們會讨論各家方案,确定手機行業标準,然後與互聯網廠商對接,最後上升到工信部、信通院等行業标準。
李大海:我們也可以參與這個項目。去年面壁智能就獲得了行業認可,被認爲是最懂 Agent 的大模型公司。
駱轶航:年初發布會時,以爲你們在 Agent 方面有動作,結果出來的是小模型。
李大海:我們今年發表的一篇論文在矽谷引起很大反響,主要讨論未來 Agent 之間如何通信和協同。從技術角度看,未來每個 APP 廠商都會很快提供自己的智能體(Agent)。關鍵是靠近用戶的 Agent 如何利用這些 Agent 組合,創造全新的個性化服務。這種 Agent 間的協同将非常重要。最近我們看到有廠商在做 GUI Agent,模拟用戶點擊,但從長遠來看,原生 Agent 與其他 Agent 協同服務用戶是更好的形态。這必然會帶來手機廠商和應用提供商商業模式的變化,這是個很有趣的問題。
駱轶航:我們看到矽谷很多公司都在做不同領域的 Agent,都強調 Agent 間協同。但 Agent 協同之上的框架應該遵循什麽标準,在什麽場景實現?比如法律和财會兩個 Agent 理論上都服務于一個公司,應該協同,但可能需要一個平台或智能體廣場來實現。
李大海:需要有發現機制和統一協議。
駱轶航:就像過去的通信協議标準一樣,該遵循的标準還是要遵循。
周圍:vivo 提出了解決方案,隻是抛磚引玉。我們希望芯片廠商、大模型廠商、手機廠商、互聯網應用和服務供應商能攜手合作,共同完善這個解決方案。
駱轶航:共同建設這樣的生态。
李大海:書同文,車同軌才能建立統一大市場,市場才能繁榮。
駱轶航:統一大市場最重要的就是書同文,車同軌。全球這麽多通信協議标準的建立都是有意義的,這方面還可以做更多事情。今天最重要的是讨論了端側模型與智能手機的結合能創造哪些場景、應用,以及新的通信協議和标準,如何推動我們進入個人智能體連接的新階段。現在你們理解我爲什麽蓄謀已久這個環節了,一個從手機層面,一個從模型層面,都在智能體方面做有趣的探索,這是很好的組合。這個環節就到這裏,希望産業間能保持互動和協作,AI for Real。謝謝周總,謝謝大海!