文 | 王智遠
你用智能體嗎?類似聊天機器人的東西。
以前,了解一個行業,得看大量數據,查好多資料,現在 AI 改變了做事、生活的方式;隻要問幾個問題,它就能幫我整理出清晰的計劃。
最近在看 martech 市場,信息量巨大,我告訴智能體想看全景圖,它直接幫我找到了答案,很方便。所以,智能體是最好的 AI 應用方向嗎?我不知道。
不過,百度李廠長在百度世界 2024 大會上提到:
AI 智能體時代快要來了,應用爆發點就在我們眼前;智能體可能會成爲 AI 應用的主流,還會迎來爆發式的增長。這個觀點引起業界的讨論,也讓我對智能體有了更深的認識。
我一直在關注這個領域。我覺得智能體不僅是提供提示、旅行建議、分析文檔的工具。它們更像有智慧的專家,能進行深入的交流。
智能體和傳統的問答機器不一樣,它們能和用戶連續對話,一步步深入問題的核心,這是它們的強項。前幾天,我就用智能體解決了 obsidian 插件沖突的問題。
不過,進一步探索中,我發現,智能體還有很多問題需要解決。什麽問題呢?
第一個:使用距離。
使用距離?什麽意思?别人不會用嗎?不是的。準确說,是用戶習慣。
智能體不僅是一個聊天機器人,更像一個超級大腦,我們用聊天的方式跟它交流,但要認識到它真的可以解決系統問題。
這個過程,不是簡單的一問一答那麽簡單,是可以讓思考更上一層樓,讓效率翻一倍。
舉個身邊的例子:
前幾天,有個朋友在群裏說要做 PPT。咱們以前做 PPT,基本上兩種方法。第一種非常老土,不用 AI,自己把内容整理好,結構搭起來,然後動手做,這種方法雖然踏實,但費時費力,效率不高。
第二種呢,用 AI 幫忙,先給個提示詞,再給 AI 一些背景資料,讓它根據提示詞和資料來輔助你整理後,再給新的提示詞,讓它幫我們把内容做得更結構化,最後,用這些内容去做 PPT。
這種方法效率提升了,但還缺少點人性化的互動。智能體呢,它更高級,屬于第三種方法。
我們可以直接跟它說:接下來有個做 PPT 的任務,你跟我着一起完成。我先給你一些資料,你學習下,然後,學習過程中,給我提出問題,類似于問我要多少頁?每頁突出什麽?
如此循環漸進的像一個合作夥伴,不僅理解了需求,還能提出建設性意見,同時又節省了寫提示詞的時間,還能達到我們想要的目的。
所以,智能體真的很能幹活兒。它是三維思考的。
想用好它,我們得有點項目思維、或者任務思維,這樣才能發揮巨大作用;但是,很多人還在用二維思維,你問我答的方式,如果一直這樣想,用智能體的速度和效率就上不去。
比起使用距離,第二個關于 API 的問題要廠商們思考下。
事情是這樣:
前兩天百度上搜比亞迪,看到官網用了智能體,我就跟它說:" 幫我找找比亞迪内飾的照片。" 結果,你猜怎麽着?它給我生成了四張圖。
我差點笑出聲,這不是搞笑嗎?我要生成圖嗎?當然不是。我更希望它能直接從官網上給我調出照片來。
緊接着,我帶着疑問,又試了豆包、騰訊元寶,想讓他們幫我 P 個圖。結果都差不多,我發現他們對 P 圖的理解跟我不一樣。
我理解的 P 圖是用 Photoshop 那樣去掉背景,但他們好像把 P 圖理解成生成新照片。
這個問題可能出在智能體本身。因爲,它們現在還做不到那種專業的修圖效果,背後缺少某種插件或能力模塊;隻有當能調用這些模塊時,才能幫我修圖。
爲什麽大公司都做不到智能體處理一整套任務呢?
因爲,一個智能體要完成一個複雜的工作流,背後不是靠一個生成模塊就能搞定的,它要調動很多數據和應用程序。
打個比方:
你去餐廳吃飯,不需要知道廚師是怎麽做菜的,菜就端到你面前了。但其實,廚師得用各種材料,比如白菜、辣椒、調料,把它們放到鍋裏一炒,菜就出來了。
智能體也是這樣,得調用各種 API,API 像菜單一樣,集合所有的服務和請求,讓不同的軟件能夠互相交流合作,最後才能達到想要的效果。
現在,很多網站和 APP 都有自己的 API,API 不統一,不标準化,這導緻智能體沒有足夠的接口可以用,限制了它的發展。
還有,以前沒有統一的底層開發框架,技術團隊開發智能體時得從零開始,現在阿裏、百度都做了統一開發框架,解決了底層數據處理、模型訓練、監控部署的問題,但中小型軟件服務商還是不多。
因此,也就限制了其他能力模塊的發展。
當然,這也是個好機會,因爲如果有人能在細分場景下,利用自己對特定業務場景的了解,開發出一個更符合一線需求的智能體,那就有機會成功。
比如:
你在教育賽道很多年,憑借個人對教育技術和孩子學習需求的理解,開發一個智能體,幫孩子提升學習進度和測試成績,就能賺到錢。
所以,API 的問題需要時間和更多中小開發者入局。
能寫出這些想法,自然不會錯過開發智能體的好機會;開發中,我發現一個第三個問題:能力泛化。
什麽意思呢?
起初,我設計占蔔師智能體,目的讓它進行占蔔。沒想到,它不僅能占蔔,還能算命,甚至能總結文章。
我以爲提示詞沒寫清楚。後來,試了其他智能體,發現也有類似情況。你可以嘗試看看,連官方出的 Kimi 也存在這個問題。
爲什麽會這樣?
我認爲智能體知識可以分爲兩部分:一部分通用知識,像我們學的基礎知識,這是智能體必須掌握的。
另一部分則是針對特定行業的,随着行業人士的使用,智能體也能跟着學習。這有點像能力的二八法則:80% 的能力是基礎的,剩下 20% 在實際工作中邊幹邊學。
實際上,過去一年,大廠都在訓練大型語言模型,這些大模型的本質,是通過海量數據訓練得到的,目的是生成最有可能的回答,而不是專注于特定能力或任務。
這種泛化能力,讓智能體在多任務中表現不錯,因爲這些任務都涉及語言處理和推理,這意味着,要進行任務微調,就必須做任務分離。
而開發多個智能體,是一種過程性的解決方案。
你想想看,各大平台現在都在嘗試将智能體做垂直細分,專注于特定領域或任務,比如法律助手、醫療問診、學習輔助等。
這種趨勢也表明,未來肯定會有更多人根據不同需求,選擇和使用專門化的智能體,推動 AI 更深入地融入日常生活和工作場景。這是第一點。
第二點,目前市面上缺少專業的智能體開發者,能培養的也很少,我想去,居然還找不到;要不,廠牌們考慮下開個班吧?
現在的開發者,很多是對 AI 感興趣的人,他們在設計智能體時,主要是用提示詞來引導模型的行爲。
但是,提示詞這種東西,像個軟性的約束,并不能真正限制智能體能幹什麽,這種設計方式,很容易讓智能體 " 越界 "。
你想想看,我設計一個占蔔師智能體,占蔔本身可能 " 順便 " 會提供點兒心理咨詢,甚至還會推薦人生規劃;這種能力的模糊性,不是我不願意解決,而是目前工具和方法還不夠成熟,我很難精準控制。
就像禅宗裏說的:" 少即是多(Less is more)"。少比多難,少不是減少,是聚焦,得用技術聚焦。
還有一點:現在智能體缺少明确場景。這聽起來像廢話。但你有沒有想過,這些場景究竟從哪裏來?
釘釘總裁不窮說過一句話:
"AI 得從下面開始,先讓懂行的人用起來。" 隻有對 AI 有需求、願意嘗試的人開始用了,才能慢慢積累出真正有用的場景,找到 AI 真正的價值。
我覺得,就算智能體慢慢融入了醫療、法律、金融這些領域,它還是停留在 " 看起來懂,但不專業 " 的階段。
因爲現在大多數人還是把智能體當成 " 聊天工具 ",聊天工具是什麽?即弄個董宇輝文案、搞個媽媽式唠叨,這不能幫助行業。
如果這種情況一直這樣下去,最後的結果就是,大家還是隻把它當聊天工具玩,沒法真正用到工作中;這樣的話,别說提高行業效率了,這不僅是對智能體的浪費,更是錯過了行業變革的機會。
所以,一個簡單的結論即:我們要思考清楚,哪類智能體做工具?哪類做平台?需要什麽樣的開發者來開發智能體?
這三個問題回答清楚,智能體才會在場景中發揮作用。
看到這,别誤會,我不是說通用智能體不行,确實有它們的好處。
垂直單一的智能體可能比較局限,但能處理多種任務處理就厲害了,因爲能同時搞定好幾個工作流程,不僅速度快,而且思考的過程也更清楚、更靠譜。
而且,這些智能體還能處理各種類型數據,在很多場景下都能派上用場。
在公司裏,這種能幹多種事情的智能體,已經開始發揮作用了,比如:RPA 技術,現在已經被看作是智能體的一個工具。
這種通用智能體在營銷、生産管理、運營自動化這些地方也有很多可能。
最近特别火的一個話題就是:智能體在手機界面上的應用。大家都覺得,将來它們會成爲重要的用戶界面入口,就像人一樣,能自動操作界面,根據需要自動用 APP 完成任務。
騰訊的 AppAgent 和阿裏的 MobileAgent 項目,或者手機廠商發布會上展示的 " 一句話點單 " 的功能,這些都是很好的例子。
我相信,在電腦、手機、自動駕駛這些領域,将來這種多功能的智能體會有很多應用場景,比如:接管系統級操作,或者用通用智能體管理子智能體等等。
我也看到,很多智能體在一些特定場景中的開發和工程化潛力,但是,話說回來,智能體的使用和能不能商業化,是兩回事。
你想想看,如果一個公司用了被随意開發的智能體,然後問它另一個公司的情況,它也回答了,豈不是很荒謬?
所以,不能光看宏觀叙事,還是要紮根行業去思考,希望大公司能多想想行業的實際問題。
比如:智能體怎麽幫一個職員做決定,怎麽規劃某個工作流程,怎麽提供真正管用的解決方案。
我說的行業,更準确地是行業裏在用、想用智能體的人,因爲隻有這些人,才能會不斷給智能體特定知識;換句話說:智能體學習了他們的東西,它才會進步。
你覺得呢?