1. 這是我體驗過的第一個由智能手機廠商自主研發的大語言模型—— vivo 推出的基于藍心大模型的 " 藍心小 V"。作爲 " 大模型神農 ",我最近測試任何一個模型服務之前都會提醒自己 " 降低預期 ",特别是對那些視頻拍得過于酷炫的 demo。但對藍心大模型,我的感覺是:合乎預期。它不算酷炫,但還算實用。
2. 作爲智能手機廠商推出的大語言模型,人們通常認爲它不會太大,參數較低,湧現效果可能不會太出色,理解一些複雜文本和意圖會出 bug。但我從藍心大模型中得到的體驗是相反的:它展現了創作和總結方面強大的推理能力,可以達到 80 分以上,反倒是在基礎的搜圖和常規寫作等方面的表現中乘。
3. 要知道,目前 vivo X100 系列手機上搭載的藍心大模型是專門面向手機打造的端側場景和雲端兩用模型,遠沒有千億級參數的大模型那麽 " 大 "。但當我丢給它一篇關于大模型的湧現現象是否真實存在的文章時,它十分精準地找到了裏面最關鍵最核心的那個論點:大模型湧現能力産生是研究者選擇的度量标準而并非模型能力擴展的結果,所以并不是真正的 " 智能湧現 "。
4. 這确實有點讓我震撼。因爲 " 讀文檔 " 對大語言模型來說,是一個有些難度系數的工作,不是哪個模型都讀得好的。比如 ChatGPT 近期閱讀複雜冗長 PDF 文件的能力就發生了驚人的退化,尤其是在概括力上。但藍心大模型的藍心小 V 能一下子找到最關鍵的論點。值得一提的是,在測試的時候,我特别勾選的是 " 本地總結 " 的功能,完全在用這台 vivo X100 機器自身的算力(聯發科天玑 9300)和推理能力進行總結,它某種程度上打破了 " 大模型必須得大 " 的固有認知。
5. 接着,我發現了一個更有意思的現象:當你把一篇更長的論文上傳給藍心大模型之後,它依然能提煉出最關鍵和最重要的觀點和發現,但延展叙述往往草率幾句話了事," 好讀書而不求甚解 "。它與一些其它的大模型 Chat Bot 在閱讀理解能力上形成了反差:很多模型拆解信息能力強,提煉概括能力不夠。藍心大模型是概括提煉得無比精準,但不願意拆解細讀,不願意浪費 token 在解釋問題上,這應該是跟模型大小密切相關的。
6. 在手機本地的照片搜索、影像查找方面,藍心大模型的響應速度堪稱絲般順滑,比如在一秒之内找到手機本地存儲的所有 " 關于故宮的照片 "。在旅遊攻略書寫等方面,它的表現中規中矩。在圖像創作上,它畫的故宮、牛肉拉面、麻辣香鍋都能接近 ChatGPT 的 DALL-E 的水準,但在想象力上不如 ChatGPT 豐富,畫不出特别瘋狂開腦洞的圖來。不過,在我讓它畫 " 一個 AI 深沉地思考人類的未來 " 的時候,它竟然給了我一張有着如此這般意境的圖片。
7. 此外,藍心大模型通過自然對話操控 APP 的能力是顯著的。我跟它說我想點麻辣香鍋的外賣,它會告訴你這台新手機上沒有安裝美團,當你同意它安裝之後,它會到應用商店自動下載美團 APP。然後,幫你打開到都是 " 麻辣香鍋 " 的頁面。當然你可以認爲,蘋果 Siri 也做的到,因爲作爲系統底層助手級應用,調取這部手機上的權限是輕而易舉的。但區别是,Siri 隻能接受非常清晰的指令來打開哪個 app,面對一個籠統的自然語言需求是無能爲力的,它是一個嵌入式的智能語音模塊,但藍心小 V 在藍心大模型的加持下,已經算是一個有自然語言理解能力的 Copilot 了。
8. 總之,幾個關鍵功能調教下來,你會有一個比較确信的方向和判斷,那就是端側大模型這件事是成立的,是靠譜的。而且,端側大模型甚至整個大語言模型落地到千家萬戶和芸芸衆生,可能還是得靠手機廠商,無論你願意不願意。
9. 某種程度上,适配手機的大模型其實更接近微軟最近強調的 " 小語言模型 ",它的參數通常不能超過 100 億,否則手機内存跑不起來,這也意味着它隻能進行特定方面的訓練,或把一個模型訓練到某種輸出程度,然後打住。對于絕大多數人來說,這就足夠用了。近期大火的巴黎創業公司 Mistral AI,就是這麽一家小模型公司。
10. 以藍心大模型公布的參數看,1700 億參數的雲上大模型用于蒸餾訓練低參數量級模型,得到 70 億參數的模型,把計算和推理同時放在雲側和手機的端側,而 10 億參數模型的計算和推理隻在端側。這也是高通、聯發科、英特爾和 AMD 們爲了擺脫英偉達詛咒不斷在嘗試和搗鼓的。模型不塞進手機和 PC 裏,他們就沒機會。但能塞進手機和 PC 的模型,往往不夠大,是小模型。
11. 小模型有小模型的好處:隻專注把幾件事做好,不做冗長的信息和代碼輸出,有幾個亮點,其它方面則一般。比如 Mistral AI,代碼寫的就是比 ChatGPT 強。再比如藍心大模型,提煉和處理本地文檔就是比别的模型精準,管理起個人手機裏的文檔和日程就是更高效。其它畫圖、寫作和搜索也都會,但并不算突出。但這又怎麽樣呢?
12. 在當下中國讨論生成式人工智能的未來,有一個詭異的現象:高舉高打的人不落地,落地生活的人對 AI 又無感。大部分人是沒用過 ChatGPT 的,對文心一言、通義千問和 ChatGLM 可能也就是聽說過和偶爾一用,看不到這些玩意兒對自己有什麽本質的變化。而死磕大模型參數、規模和基準測評結果的這些玩家,所有成果都放在了 Hugging Face 和 GitHub 上,幾乎從來不面向普通人做推廣,對普通人也無感。AI 開發者和用戶雙向無感,這種局面可能短期内是無法改變的。
13. 但如果智能手機廠商做大語言模型,可能就不太一樣了。主要的原因是:用戶是有感的。當大模型内置在操作系統的底層,可以随時喚起、輔助和調用功能,就像藍心大模型長在 Origin OS4 上那樣,用戶就會不由自主地需要它,需要它的輔助,測試它的潛力,甚至需要它的陪伴。它可能不是一個萬能的大模型,可能就是個小模型,但是它懂它的用戶,熟悉設備裏的數據,了解用戶習慣,保護用戶的隐私,能幫着排日程、打開外賣菜單、總結文檔、挑挑照片,完成一些基礎寫作,它就是大多數人 " 夠用 " 和 " 可信任 " 的 AI 了。
14. 推動大語言模型的普及,肯定不是通過 AI 編程實現的,也不是隻有刷新 SOTA 評估的技術突破才能造福大多數人類。就像鞋子合适不合适,隻有穿上了才知道一樣,一個模型合适不合适,隻有用了才知道。我最近這段時間在有意識地 " 去 ChatGPT 化 ":閱讀論文和文檔靠 Kimi Chat,案頭工作靠文心一言和 ChatGLM,個人助手就靠 vivo 藍心大模型,不爲别的,因爲它 " 合身 "。你不期待它綜合趕超 ChatGPT,但我真的是需要一個手機上能用的,保護個人隐私和數據安全的,各項平均分數還過得去的 " 大模型 " 或 " 小模型 "。
15. 大語言模型是用來給人用的,又不是拿來吹牛 X 的。