圖片來源 @視覺中國
文 | 王吉偉
論文、項目、産品不斷湧現,AI Agent 工具使用瞄準 RPA
越來越多的 AI Agent 項目正在融合 RPA,背後的邏輯是什麽?
被遺忘在角落的 RPA,成了提升 AI Agent 執行能力的天選神器
由 RPA 廠商推出的 RPA Agent,與市面上的 Agent 有什麽不同?
源自 API 的實驗性 AI 智能體越來越多,基于 RPA 的實用性 AI Agent 穩紮穩打
API 難以解決 AI 智能體執行能力問題,AI Agent 深度落地鎖定 RPA
LLM(Large Language Models)剛爆發之時,很多人認爲 RPA 要完了,自然語言交互 +API 操作足以幹掉任何 UI 自動化工具。
然而,大語言模型應用發展到 AI Agent 這一步,大家才發現 API 并不是萬能的。Agent 平台雨後春筍一般出現,但所構建的大多 Agent 隻能在問答與訂餐、買機票之間徘徊。
不能參與複雜業務流程的 Agent,也就無法幫助企業更好地增效降本。
爲了讓 Agent 深度參與到 ERP、CRM 等企業管理軟件的自動化操作中,除了構建與生成更多的 API 及相關函數,UI 自動化也再度成爲解決問題的關鍵,成爲 Agent 架構工具使用模塊的首選。
面向龐大而複雜的企業管理系統,企業級 Agent 的工具模塊解決方案就變成 API 與 UI 兼顧,API 用以直接調用插件與工具,UI 用于解決非接口軟件的連接。
由此,探索 Agent 與 RPA 的廠商越來越多。
OpenAI 投資了一家主打 "RPA 3.0" 的初創企業 Induced AI,面壁智能聯合清華等機構發布了 "APA" 推出了 ProAgent,清華 & 智譜 AI 團隊發布了專注于 GUI 圖形交互界面的理解和導航的 CogAgent,騰訊推出了用于移動端的 AppAgent。
這些相關項目,本質上都是 Agent 與 RPA 的結合。
其實先一步對 "API+UI" 類型 Agent 解決方案進行探索的,是 RPA 超自動化廠商。從最開始接入 LLM 到現在推出 Agent 産品與解決方案,廠商們一直都在積極探索與跟進 LLM 的應用。
并且早在大語言模型之前,RPA 超自動化廠商就已經實現了兼容 API 與 UI。
Gartner 曾在 2022 年 RPA 魔力象限報告中預測,到 2024 年,95% 的 RPA 供應商将通過 API 與 UI 集成提供自動化。當前融合 RPA 的超自動化廠商,基本實現了兼顧 API 與 UI。
說到這裏,有人可能會問,如果把功能強大的企業級 RPA 平台作爲工具融入 Agent 架構,這樣的 Agent 産品是不是就能深度參與到企業運營的複雜業務流程?由 RPA 廠商打造的 Agent 産品又與其他廠商的産品有什麽不同?
本文,王吉偉頻道就跟大家聊聊這些。
AI Agent 瞄準 RPA
今年 10 月份,OpenAI 投資了一家 RPA 初創公司 Induced AI。在 Induced AI,用戶隻需用簡單的英語輸入工作流程和錄屏視頻,Induced AI 就能将其實時轉換爲僞代碼,并調取多種相關工具,來執行大量重複性任務。
從産品描述中可以看到,Induced AI 的 "RPA 3.0" 形态産品是一款基于大語言模型的智能體。
開始很多人并不知道 OpenAI 爲何要投資一個 RPA 公司,但随着 AI Agent 越來越熱,在大家意識到其落地方面存在執行能力不足的問題後,瞬間就想明白了 OpenAI 的 " 用意 "。
把 RPA 當作工具去操作 API 無法觸達的企業管理軟件,自然就能大幅提升 Agent 的能力,且隻有這樣的才有可能打造出企業級 Agent。
自此開始,關于 Agent 與 RPA 的研究越來越多。
11 月份,面壁智能聯合清華自然語言處理實驗 等機構共同發布了新一代流程自動化範式 Agentic Process Automation(APA,相關項目爲 ProAgent),該範式實現了工作流構建的自動化,以及工作流執行時動态決策的自動化,并通過實驗揭示了大模型智能體在自動化中的可行性與潛力。
項目地址:https://github.com/THUDM/CogVLM
而該項研究的主要目的,就是将 Agent 技術的靈活性引入 RPA(或者說将 RPA 作爲工具引入 Agent 架構,也是成立的)。
而在此之前,爲了解決 LLM 面對用戶指令使用外部工具(API)處理高級任務時的不足問題,面壁智能聯合來自 TsinghuaNLP、耶魯、人大、騰訊、知乎的研究人員推出 ToolLLM 工具學習框架中的 ToolBench 數據集,已經囊括 16464 個真實世界 API。
由此,UI 自動化對于 Agent 在真實世界應用重要性不言而喻。
12 月 15 日,清華 & 智譜 AI 團隊發布了最新研究成果 CogAgent-Chat。CogAgent 是一個基于 180 億參數規模的視覺語言模型(VLM)的圖形用戶界面(GUI)智能體,專注于 GUI 圖形交互界面的理解和導航。
CogAgent 使用屏幕截圖作爲輸入,在 PC 和 Android GUI 導航任務上超越了基于語言模型的方法,如 Mind2Web 和 AITW,引領了 GUI 理解領域的最新技術發展。
這個技術理念,與實在智能推出的 RPA Agent 使用屏幕語義理解技術通過識别屏幕構建 UI 自動化非常相似,同樣屬于 Agent 與 RPA 技術的結合。
除了創業公司,科技大廠也在關注這個領域。最近騰訊和德州大學達拉斯分校的研究團隊合作開發了一個名爲 AppAgent 的項目,該項目可以通過自主學習和模仿人類的點擊和滑動手勢,在手機上執行各種任務。
項目地址:https://github.com/mnotgod96/AppAgent
這包括在社交媒體上發帖、幫助用戶撰寫和發送郵件、使用地圖、在線購物,甚至進行複雜的圖像編輯。AppAgent 已在 50 個任務上進行了廣泛測試,涵蓋了 10 種不同的應用程序。
這個項目,可以看作 Agent 與 RPA 結合在手機端的應用。
除了上述項目,王吉偉頻道也接觸過幾個智能體創業項目,都采用了 Agent+RPA 這個模式。
LLM 廠商、科研機構以及科技大廠對于 Agent 和 RPA 的探索與研究,進一步驗證了當前階段 RPA 對于 AI Agent 在各領域落地應用的重要性。
背後的邏輯
相較于直接使用 LLM,目前的 AI Agent 産品在體驗上的優勢盡顯:
首先,智能程度和普适性高,能較好的理解和推理複雜的任務并且做出規劃;
其次,能高效判斷并使用外部工具,整個過程的銜接非常流暢。
但随着更多的使用,大家發現當前 Agent 的實驗性強于實用性,存在兩個影響應用的重要問題:
一是效果不穩定,多步推理能力不夠。大部分産品 demo 看上去效果驚豔,但對于抽象複雜的問題,能有效解決的比例不到 10%,隻适合解決一些中等難度的問題。
二是外部生态融合度不高。第三方 API 支持的數量和生态不多(基本以搜索和文件讀取功能爲主),API 覆蓋範圍不夠廣,很難做到比較完整的跨應用生态。
大家知道,目前最流行的也是最理想的 AI Agent 框架是由 OpenAI 提出的 "LLM+ 記憶 + 規劃 + 工具使用 " 四件套。
對于一款 AI Agent 來說,LLM、記憶和規劃擔當了任務的分析、拆解與規劃,工具使用則關系着執行任務的能力。任務規劃得再好,沒有執行能力也無法完成任務。
上面第一個問題關聯的是用戶體驗與實際效果,當然還要看 Agent 面向什麽應用場景。
如果是 2C 場景比如購物分析等效果不穩定或者等待太長時間,大概率會讓很多用戶放棄使用。
但若是 2B 場景比如用于程序構建,其自動化生成應用及業務流程的能力,遠比之前手動輸入代碼或者拖拽式的無代碼操作的效率要高得多。
而第二個問題則是企業應用 Agent 的關鍵,Agent 主要通過 API 來調用各種插件工具去執行各種任務,工具越強大執行能力也越強。
相關研究數據統計,目前公共和私人 API 的應用數量已接近 2 億。在國内,僅 2022 年就有 6700 多萬個 API 被創建。
但對于大型企業異構且複雜的信息化環境來說,這些 API 仍然無法滿足其個性化、安全性等方面的需求。
加上很多企業軟件系統缺少 API 以及開發成本過高等因素,使得 Agent 無法操作更多的企業管理軟件,阻礙了 AI Agent 的跨部門、跨領域應用,執行能力大打折扣。
這種情況下,在工具調用上,如果想打造一款能夠參與複雜業務流程的企業級 Agent,不隻需要通過 API 調用工具,更需要通過 UI 自動化實現各種軟件連接。
RPA 和 AI Agent 有着很強的關系。接口的設計原則是 " 高内聚、低耦合 ",實際上很多軟件很難有接口,這時候 RPA 的作用就尤爲重要。把 API 和 RPA 封裝起來作爲 " 手和腳 ",結合大語言模型 " 大腦 ",Agent 才能真正實現無所不能的智能自動化。
由此,一些組織重新把目光重新聚焦到 RPA 身上。
使用 RPA 通過基于 LLM 的 AI Agent 自動執行業務流程任務企業級應用,并構建自動化流程的長期維護機制,也成爲更多組織在智能自動化方面新的研究課題。
同時,Agent 的執行能力落點到 RPA,也使得已經積累大量數據、經驗、技術以及生态能力的 RPA 廠商所推出的 Agent 産品,受到更多關注。
尤其是發布相關領域模型的廠商,更是廣大企業與投資機構關注的重點。
RPA Agent 的優勢
由 RPA 超自動化廠商推出的基于 RPA 構建的 AI Agent,或者将 RPA 作爲工具的 Agent,這裏将其稱之爲 RPA Agent。
目前已經出現很多 Agent 構建平台,也出現了大量 Agent 産品。但如果仔細觀察這些産品,會發現大多數産品還隻是知識問答類的對話機器人,少部分可以通過 API 操作部分工具或者适用于 Agent 平台的内部生态,與 OpenAI 推出的 " 準 Agent" 産品 GPTs 相似。
這些封裝了大語言模型産品能力的類智能體産品,或者說是智能體的早期産品,跟歐美技術圈所定義的智能體還有一些差距,在能力上缺少了調用 API 的靈活性,也缺少了用 RPA 去連接更多管理軟件的通用性。
類似的智能體能夠勝任内容生成、推理分析及反饋等,對于一些不需要太多企業管理系統的中小微企業大部分業務運營都能勝任。
但在執行層面就要差很多,不能在生成内容後執行其他業務流程的任務自動化,缺少了對長流程的支持,無法調用工具去完成複雜業務流程的自動化執行。
與這類 Agent 相比,RPA Agent 恰好可以解決上述 Agent 難以解決的問題。
RPA 本身就是爲解決 UI 自動化而生,用于彌補 API 自動化覆蓋範圍小、開發難度大等的不足。
爲了保證 RPA 運行的穩定性,廠商們在技術及産品上面下了很大的功夫,比如屏幕語義識别、IPA 模式等,這樣的産品作爲 Agent 的調用工具,具備操作大型企業複雜業務流程的天然屬性。
在上一輪業務數字化改造中,大量企業在業務流程自動化上都引入了性價比很高的 RPA 超自動化解決方案。LLM 爆發後,超自動化廠商都在積極融合 LLM,并且現在開始陸續推出 Agent 解決方案。
其實對于已經引入 RPA 超自動化解決方案的企業來說,想要享受 Agent 紅利很簡單。如果 RPA 服務商已經推出 Agent 解決方案,隻需要将原有解決方案中使用的産品或者技術升級成爲 Agent 解決方案即可,一般而言廠商可以提供技術平移及叠代的服務。
這樣企業就不用再去了解和引入新的 Agent 解決方案,避免更多的投資與開銷,這在當前經濟下行的形勢下是蠻重要的。
Agent 廠商在爲廣大企業提供個性化服務及部署時,也會基于原有企業的 RPA 系統去做相應的解決方案,這使得大量企業的 Agent 解決方案實則都是在工具應用上調用 RPA 去執行各種企業管理軟件的操作。
顯然在這個部署的過程中,先一步推出基于 RPA 的 Agent 解決方案的廠商将會更具優勢,因爲他們對 RPA 以及超自動化有着更深的理解,也能讓其 Agent 解決方案能夠觸達企業運營的更深層。
從目前市面上大多 AI Agent 以及用戶反饋來看,AI 智能體想要真正在 B 端實現量級業務場景的落地及更好地商用,需要綜合考量其本身的安全性、技術發展周期是否成熟以及 To B 端的場景是否密切貼合,更需要考慮接口成本、隐私、管理、授權等諸多因素。
從具體需求來看,比如金融領域大 B 客戶對于查詢和拆解指标、項目數據查看分析、推送報表 / 報告等需求,看起來簡單卻不是簡單的 GPTs 或者知識内容類 Agent 能夠實現的。
其中的業務流程涉及到了深入企業管理系統的複雜流程自動化構建,更涉及到了數據庫讀取、API 管理及 UI 自動化連接等。
目前僅是基于 API 接口讀取數據及調用工具插件的 Agent,難以實現這樣的流程應用,而基于 LLM 并同時兼顧 API 與 UI 自動化的 RPA Agent 是不錯的解決方案。
在廣大企業關注的數據安全方面,相較于 API 模式,RPA 模式的優勢在于對系統的無侵入。通過結合 ISSUT(智能屏幕語義理解)等技術,RPA 能夠對人類操作系統的行爲進行模仿,并通過識别屏幕上的軟件進行操作,全流程不會對系統和數據造成任何損害。
此外對于系統設計而言,對外暴露的 API 越多,安全風險越高。在實在智能 CEO 孫林君看來,系統的設計原則是 " 高内聚,低耦合 ",即用大模型去構建 Agent 時,軟件暴露的 API 越少越好。
所以,RPA Agent 不隻是一種行之有效的 Agent 解決方案,更是當下 LLM 時代企業應用 Agent 的新範式。
RPA Agent 實例解讀
下面,我們來看兩個已經發布的 RPA Agent 産品案例。
案例 1:實在智能 TARS-RPA-Agent
上個月完成近 2 億元 C 輪融資的實在智能在 8 月份所推出的實在 Agent 智能體,是一個典型的企業級 Agent 智能體産品。
實在 Agent 智能體,既可以支持私有化部署,又支持無需部署就可以方便用戶使用的大語言模型的超自動化智能體,它基于 " 自研垂直大語言模型 TARS 和 ISSUT(智能屏幕語義理解)雙模引擎打造。
該産品實現了全行業首個 " 你說 PC 做,所說即所得 ",能夠自主拆解任務、感知當前環境、執行并且反饋、記憶曆史經驗。
實在智能自研的基座大語言模型 TARS,最大特點是被投喂了大量的行業知識,KNOW-HOW 和自動化流程數據,有利于 TARS 對客戶業務流程的理解和拆解,使得實在 Agent 智能體能夠更好的規劃與執行複雜的業務流程。
實在 Agent 智能體能夠聽懂業務用戶的所有指令,更能準确把指令任務自主拆解成方便後續自動化流程去執行的 " 生成式,懂業務的智能數字員工 "。
隻需簡單說一句話,實在 Agent 智能體就能幫用戶操作電腦軟件完成各種工作和任務,每個流程中的步驟百分百可視,用戶可以邊查看執行的每一個步驟,邊判斷整個自動化流程是否準确,并可以随時進行調整。
使用智能體可以替代手工作業,實現至少 300% 效率提升,保證數據處理準确無誤,防止人爲因素風險,将個人智慧轉化爲企業組織智慧,沉澱人機協同經驗。
作爲一款企業級 AI Agent 平台,實在 Agent 智能體具備識别與理解、系統方案、深入匹配、專有部署、更加可信、自主可控、持續叠代等多種特性,可以爲企業打造無需額外配置、開箱即用且效果立竿見影的智能體助理,幫助員工提升工作效率和創造力,賦能企業增效降本。
案例 2:壹沓科技 CubeAgent
CubeAgent 是壹沓科技推出的基于大模型的數字員工平台,爲企業提供基于大模型技術驅動的數字員工聚合及訓練平台,幫助企業輕松構建專有的 " 數字員工團隊 ",爲白領員工配備具備多種能力的 " 辦公小助手 ",一站式幫助企業員工完成所有的日常工作。
在供應鏈領域,運小沓數字員工平台是全球首款供應鏈大模型産品,能夠爲供應鏈企業量身打造虛拟數字員工專家團隊,資深供應鏈運價經理、物流可視追蹤經理、供應鏈新人成長師、行業案例專家行業翻譯大師、行政問答助理等,提供高效所答即所問的供應鏈領域準确知識。實現這一切,隻需像跟同事聊天一樣。
作爲供應鏈企業更加智能的業務自動化解決方案,運小沓數字員工平台可以助力企業實現産品智能調用和辦公系統智連:一句話查運價、發艙單、物流追蹤,智能運行 FMS、OA、CRM,提升組織敏捷性,開啓全新智能辦公時代。
借助一系列虛拟辦公助手,運小沓數字員工平台也将爲供應鏈企業提供更加智能的業務自動化解決方案、「白領員工 +CubeAgent 數字員工」的人機協作智能辦公新模式,提升組織人才密度、敏捷性,幫助供應鏈企業重構生産關系,推動企業生産力躍遷。
據悉在商業拓展方面,運小沓數字員工平台已經跟供應鏈 Top 企業在大模型方面達成戰略合作,并宣布成立了 Next Club。
Induced AI 已經在前面介紹過,這裏不再作爲案例贅述。
後記:RPA Agent 的 "iPhone 時刻 "
把時間軸放大去看,在 API 一統數字化江湖之前,RPA 會一直擁有存在的價值。隻要仍舊存在 UI 操作的業務流程,隻要 API 無法解決所有軟件的聯通問題,RPA 或者類 RPA 工具就會一直充當 UI 自動化的連接器。
歐美日韓等地域的 RPA 超自動化應用普及率已經很高,意味着 API+UI 的 Agent 解決方案更容易得到推廣。
而國内市場尤其是制造業等信息化相對滞後的領域,目前剛進入 RPA2.03.0 的時代。對于引入 AI+RPA 解決方案的企業,傳統 AI 技術早晚會變成 LLM 技術,而 Agent 解決方案也将是最佳的 LLM 應用方案。屆時,大部分廠商都将是 RPA Agent 解決方案。
由此來看,至少未來 5-10 年,RPA Agent 或者以類 RPA 産品爲工具的 AI Agent 會成爲企業數字化運營的主流模式。
所以,"RPA Agent" 這個詞組,除了表達它是一種 " 以 RPA 爲工具的 Agent" 之外,更意味着 Agent+RPA 管理企業數字化運營的模式即将流行起來。
表面上看,RPA 成了 AI Agent 執行層面的超級工具。反過來看,AI Agent 也在借助 RPA 落地。
在埃森哲最新發布的《2024 年技術展望》趨勢報告中,将 " 智能體 -AI 互聯網的生态系統 " 列入第二趨勢,再次證明 AI Agent 将在組織運營中扮演的重要角色。
同時該報告調查數據顯示,96% 的高管認爲,在未來 3 年内充分利用 AI Agent 生态系統将成爲其組織的重要機遇。AI Agent 生态系統的崛起正在改變企業智能和自動化戰略的思考方式,将帶來巨大的機遇和挑戰。
這意味着,AI Agent 會帶來組織的深度變革與企業數字化運營範式的轉變,也将帶來廣闊的市場空間。
▲ 圖源:埃森哲中國官微
對于智能體早期企業可以做什麽,埃森哲也提到越早爲智能體準備好相關的基礎設施和信息,智能體就能越早發揮潛力。并建議重新考慮某些數據管理實踐,比如數據庫的向量化處理、提供用于訪問數據的新 API 以及擴展與公司系統進行接口交互的工具等。
而當前與系統進行接口交互的主流自動化工具,正是能夠通過 UI 連接不同系統以補充 API 生态不足的 RPA。
由此,作爲能夠深紮複雜業務流程且執行能力更強的 AI 智能體,RPA Agent 的 "iPhone 時刻 " 已然到來。