2025 年被認爲将是智能體(Agent)落地元年,客戶更看重智能體的效果,生态各方爲此已在摩拳擦掌。
文|趙豔秋 周享玥
編|牛慧
智能體采購,正在成爲市場熱點。
" 如果說 2023 年項目中标主要圍繞智算中心、模型中台建設,那麽從今年下半年起,衆多客戶的招标内容全都轉向應用,且越來越細分。" 衆數信科聯合創始人汪中告訴數智前線,智能體開始走上台前。
智能體已成爲客戶、大模型企業以及各類服務商關注的核心故事。甚至一家企業能把智能體做好,就能越過大廠,成功中标。
對于大模型企業而言,智能體技術及工具鏈的支撐能力已成爲基本要求。若在這方面表現欠佳,大概率難以與其他模型競争。單純靠刷榜體現的優勢,如今已很難得到客戶認可。
不過,業界對于智能體的定義、涵蓋的具體内容,尚未達成共識。有人認爲 OpenAI 推出的 GPTs 是智能體;也有人認爲,隻有能調用工具的才算是智能體。從形式上說,不管對話機器人還是各種形式的大模型應用,從廣義上都屬于智能體範疇。
但有一點是業界公認的,那就是智能體必須能切實解決業務問題,至少在降本增效方面要有 10 倍、20 倍的提升,才能獲得客戶認可。因爲業界越發意識到,大模型模式更難實現商業閉環,單純的燒錢模式基本難以爲繼。
而業界這種認知,不僅重構了軟件架構,甚至在促使大模型生态企業重塑了商業模式。正如王堅博士所說,AI 不應被視爲工具的革命,而應被當作革命的工具。
01
" 客戶要求 10 倍 ~20 倍效果 "
" 你說電商直播數字人好,那你就幫我賣東西。一單二三十元,我分你兩元。" 從事生成式 AI 虛拟人研發的中科深智 CTO 宋健告訴數智前線。在電商領域,今年客戶在購買工具時變得格外謹慎,他們更傾向于按照效果付費,采用分潤或 CPS(按銷售付費)模式。宋健預測,到明年,他們的直播電商數字人客戶可能 100% 都會采用這種模式。
" 國内外智能體存在很大差異。國外可能仍類似于傳統 SaaS 模式,隻是利用智能體重構了以往的軟件架構。" 宋健表示,國内的情況則更爲激進一些,在一些競争激烈的行業,比如電商領域,不僅重構了軟件架構,還重塑了商業模式。
這是因爲客戶關注的是智能體能否切實解決問題。"無論是降低成本還是提高效率,綜合起來至少要有 10 倍、20 倍的提升才行。" 宋健進一步解釋道。
"客戶現在對大模型技術已經祛魅了。" 衆數信科汪中向數智前線坦言,這些客戶從之前單純的基礎性采購,轉變爲以應用效果爲導向,要求智能體在降本、提效或拓展新業務方面創造價值。
" 客戶不關心你是怎麽實現的,隻要看效果。" 汪中說。目前行業内的采購模式通常是,技術廠商先迅速爲客戶進行一個 PoC(概念驗證)場景驗證,雖然語料範圍可能較小,交互形式也較爲單一,但要證明能夠完成客戶場景中的業務邏輯,并運用客戶專屬的業務知識。之後,客戶才會啓動采購流程。當然,他們也願意爲這些創新投入一定成本。
衆數信科最近做的一個 PoC 是氣象部門的緊急預警方案助手。廈門每年都會遭受台風侵襲,氣象部門預測後,需要向港務局、城管等多個部門發送應急通知。這些應急報告原來需要 4 個專家花費 3 個小時才能完成。PoC 的演示效果顯示,借助助手,隻需 1 位專家 1 小時就能完成,效率大約提升了 12 倍。
在另一個案例中,原本無法實現的事情,現在成爲了可能。在高校學生培養計劃中,存在大量評測維度。如果依靠現有的編程技術,針對上萬乃至數萬學生,隻能進行一些通用評測,很難實現個性化定制。在這個案例中,針對課堂環節,多個智能體協同合作,實現了創新。例如,有的智能體負責轉錄授課語音,有的進行授課水平的分析對比;有的生成随堂小測試卷,有的現場批改試卷;還有的針對每個學生的薄弱點,進一步推薦學習材料…… 因此,在學生評價系統中,新增了多個評測維度。
" 每一步背後都有智能體的支撐。" 汪中總結道,随着基礎模型能力的發展,智能體的能力和形态更爲豐富,已經初步具備協同的基礎。汪中說,他們在實踐中認識到,每個智能體都要扮演一個人類的社會角色,進行社會化分工并有産出,進而有可能形成群體智慧。智能體不再是單一的工具,未來也不僅僅是單個超級智能體的出現。
爲了達到這樣的狀态,智能體需要具備三個主要特征:能夠進行交流和理解;依據反饋和結果進行反思和自我規劃;與外部能力單元,如業務系統、其他智能體、工具級應用等進行互動和協同。
在智能體落地應用過程中,客戶從購買産品向購買服務的轉變趨勢愈發顯著。智能體與以往信息技術的不同之處在于,它需要持續優化和調整,而目前客戶完全依靠自身力量實現這一點,還存在難度。汪中發現,以規模在 200 萬元左右的項目爲例,後續每年服務費的占比已從傳統信息化項目的 10%~15% 提升到 25%~30%。
而在競争更爲激烈的電商領域,變化更是翻天覆地。宋健注意到,電商直播數字人的叠代速度已經以天計。一旦從銷售工具轉變爲提供服務,涉及的環節會變得極爲繁雜。例如,需要密切關注平台的各種規則及其調整變化;之前那種研發、産品和業務相互分離的模式已經行不通了,現在必須協同作戰,技術人員要深入一線,每天查看數據、分析運營情況,進行優化叠代;當優化措施不再奏效時,要果斷更換産品、調整客戶群體。"CPS 模式的優勢就在于,各方更容易達成共識。"
02
生态全都動起來了
在智能體的落地巨變中,雖然大廠仍是當下的主要推動者,但人們認爲,由于智能體更看重對客戶需求的響應,未來行業智能體的産出來源主要将是兩類玩家:
一類是有 AI 原生能力的服務商。另一類則是行業傳統信息化服務商。智能體的落地并非易事,核心技能有業務場景遴選、知識萃取、智能體訓練和編排。如果不了解業務場景以及大模型的能力邊界,那麽在技術響應、經驗和效率上就會非常低。這需要人工智能人士和業務人士的雙向奔赴。
而大廠在這一過程中,将扮演生态鏈普及角色。百度、阿裏、字節、騰訊等大廠均推出了一站式智能體開發平台。他們走的是标準路線,目的是降低智能體落地門檻、應用廣度和深度。比如,無論百度、智譜還是浪潮雲,最近發布的新品,都在關注用智能體接管手機等設備的能力,實現一些拟人化操作。
"大家目前都在基于自身大模型,構建整體的智能體生态。"IDC 中國高級分析師楊雯告訴數智前線,差異在于各家應用場景、數據積累不同,發力的優先場景和方向選擇也有所不同。業界觀察,這些企業在智能體支撐策略上差異也較大:
業界反饋,百度生态布局上覆蓋較全,有基礎模型,APP builder、Agent builder 平台,也有對應的硬件如一體機,可直接在客戶機房中部署。百度也支撐聯合方案開發,定制化産品适配。業界分析,這與李彥宏号召業界不卷模型、卷應用有關。
一些人士建議,千帆平台可以加強除文心之外的商業化模型納管,并支持更多常見互聯網服務的插件開發。
在智能體方面,今年 11 月,百度推出工具流 Agent。"Agent 去年一出來特别火,但很快一盆冷水潑下來,大家發現很難用起來。我們的客戶裏,90% 是 RAG,10% 是 Agent。" 千帆 AppBuilder 産品負責人朱廣翔告訴數智前線。因爲要完成一個企業級任務,可能需要幾步甚至更多,如果每一步準确率是 95%,多步驟下來,衰減将非常快。它沒辦法支撐長思考和推理。采用工作流方式,專家把流程描述好,Agent 就會穩定很多,會更加落地。
阿裏的通義千問模型能力在國内較強、反饋好,其開源模型在業界應用較多。阿裏更多通過雲端形态支撐應用,私有化支撐較少。這可能與阿裏雲的 "AI 驅動、公共雲優先 " 戰略有關。在智能體産品方面,阿裏通義實驗室新推出了自适應規劃的多模态檢索智能體OmniSearch,能模拟人類,将複雜問題逐步拆解進行智能檢索規劃。
字節目前在大力推廣扣子私有化部署産品,即今年 8 月推出的 HiAgent 企業專屬 AI 應用創新平台。與年初打響大模型價格戰異曲同工,這次仍通過價格戰,搶占市場。不過,它目前還不搭配模型,即字節豆包模型還沒有私有化;不做應用,沒有硬件,嘗試基于 HiAgent 平台教會客戶去搭建 Agent 應用。它的打法和支撐條件還有待體系化,這與其剛剛啓動大模型私有化業務線不無關系。
而騰訊在智能體上的布局,也和其在大模型落地上優先賦能自身産品矩陣的 " 全家桶 " 策略類似,更加關注與自身擁有龐大流量的自家産品的結合。比如今年 9 月,騰訊元器上線的新功能,就支持公衆号運營者自主打造專屬智能體應用,在公衆号内提供陪伴、互動、答疑、知識交流等智能化功能,目的是提升用戶體驗和公私域運營效率。
除了大廠,"AI 六小虎 " 的智譜 AI 最近不斷更新智能體技術。智譜的優勢在于科研能力較強,一些開發者反饋,其模型的某些性能,超過了通義千問。但目前生态方面的支持還有待加強。
在前不久召開的智譜 Agent OpenDay 上,智譜 CEO 張鵬表示,Agent 可以看作是大模型通用操作系統的雛形,理論上,可以将其推廣到手機端、PC 端、車端等各類智能設備上,實現基于大模型的互聯互通。
" 将來的智能體,一定是跨系統操作的,這是 0 跟 1 的區别,而不是 60 分和 70 分的區别。" 一位資深行業人士觀察,跨系統、跨 App 的能力,目前已成爲兵家必争之地。
中國電信在今年 9 月開始智能體平台的開發,近期展出了星辰智能體應用平台。中國電信相關人士告訴數智前線,目前針對政企的标杆項目正在打造之中。
雖然大廠動作不斷,但業界期望他們支撐智能體的速度要更快。" 目前的速度無法跟上廣泛的客戶需求。更多業務邏輯沒有充分體現,也就是客戶專屬知識與大模型技術的結合問題,這也是業界在落地上非常關注的。這側面說明,大模型企業向客戶方向靠攏,尚需一個過程。
03
智能體,何時爆發?
智能體的大方向已成,但何時能夠真正爆發?
多位行業人士均向數智前線表示,這很大程度取決于模型能力的發展及市場教育進程。
" 我們有一個簡單判斷,GPT5 什麽時候能出來,會是一個很直觀的對标時間點。" 衆數信科聯合創始人汪中說。
智譜 AutoGLM 技術負責人劉潇也告訴數智前線,去年智能體還隻能滿足用戶 10%-20% 的預期,用戶就不太願意買賬,今年達到了 50%-60%,一些用戶開始意識到這件事情有用,而當智能體能滿足用戶 70%-80% 的預期時,應用鋪開的速度将非常快。他判斷大模型能力達标大概還需半年。
中科深智 CTO 宋健則表達了不一樣的觀點。他認爲,Agent 要真正爆發,必須真的滲透到行業裏頭,但 To b 鏈條的爆發,"明年應該還到不了特别大的規模"。
IDC 中國高級分析師楊雯也告訴數智前線,于 B 端來說,若無法徹底解決大模型的幻覺問題,達到 100% 的精準度,大規模應用仍然難以實現。智能體爆發,預計可能要 1 至 1.5 年時間。
" 目前而言,智能體仍處于市場混戰階段,距離成爲終極入口标準還有一定的路程。" 楊雯說。
但不可否認的是,面向這一确定的方向,處在智能體爆發前夕的玩家們,無一例外,都在通過各種工程化的能力和一系列技術,彌補模型能力不足,提前搶占先機。
" 我們測試過大量基礎模型,它們的 Function Call 能力在 10 個工具裏去選,還是比較準的,一旦超過 10 個,準确度就大幅衰減,但在實際的應用場景中,執行步驟大概率都超過了 10 個,爲了更好的實現業務可控性,我們首創了基于狀态機的智能體 workflow(工作流),在保證智能體自規劃、自治性能力不受影響的前提下,實現業務的精準可控。" 汪中說。
智譜劉潇也透露,他們正通過更好的強化學習策略,讓智能體能夠執行更長的步驟操作。
業界目前也都在研究工作流。"正因爲有了工作流,我們發現雖然隻增加了一層,但是 Agent 的落地增長就非常快,能看到很快到兩成。" 百度朱廣翔說,預測明後兩年,Agent 會逐漸超過 RAG 應用,因爲 RAG 場景較少,隻是問答;但 Agent 可以實現客服、營銷、企業調度、一站式平台,天花闆更高。
有行業人士認爲,智能體的應用可以至少分爲從低到高三個應用層級,目前市場上已經出現不少初級應用和中級應用,高級應用則還需進一步實現。
比如豆包、kimi、文小言等,被認爲可以看作是最爲初級的智能體。它們具備簡單的語言交互和任務理解能力,聽得懂人話,能夠根據指令,去執行一些簡單的操作。" 目前絕大多數的智能體是單智能體的初級應用,包括很多 GPTs,能夠簡單的做問答等任務執行。"IDC 楊雯說。
中級應用還要更深一層,展現形式已經脫離單純的 Chatbot 形态,不再僅僅是對話框模式,規劃能力和複雜度也進一步提升,使用的工具不再是聯網搜索、天氣查詢等簡單插件,而是需要有對應場景内的專業插件和能力,能完成更複雜的場景任務。
" 比如智能客服,就是非常典型的一個 Agent 應用,比以前可能會有 10 倍甚至 20 倍的一個變化,現在我們接到的很多電話,其實都是新的 Agent 打出來的,你跟它聊半天,可能還以爲它是個真人。" 宋健說,而且,與傳統客服相比,軟件設計也變得更加簡便。
" 第三個級别,也是我們現在在努力去實現的。它除了更豐富的交互形态,能夠完成複雜任務,還會額外再增加兩個标簽。" 汪中告訴數智前線。
其一是能夠了解場景背後的業務邏輯和知識脈絡。" 它可能不再那麽通用,但它的專業性更強。而如果沒有,它還會主動去尋求這些行業知識的支撐。"
其二,從插件和工具的使用能力上來說,它能夠讀懂現有的業務系統,将現有的業務系統作爲其能力插件來源的一部分,而不再隻能使用爲它定制的插件。
汪中舉例說,他們正在與船舶貨運公司進行港務調度助手的研發試點,在他看來就是一種高級應用。
一艘船靠岸後,往往需要進行卸貨、轉運、洗艙、船員登記、物資補給等大量工作,原來這些工作主要靠人工去安排和調度,再登記進入車輛管理系統、補給管理系統等對應的若幹個系統裏,給到對應的執行單位執行。而現在,客戶提出,希望用 AI 智能體來幫助現場員工,在繁雜的信息流和工作流中,由智能體進行初步的信息收集、分析、業務建議,成爲現場員工的 " 數字同事 "。
當然,更高級的應用,仍然有賴于模型能力和工程化能力的提升。
ZXY19980209ZXY 或 a36942587)
© 本文爲數智前線(szqx1991)原創内容
進群、轉載或商務合作聯系後台
文章精選
>