AI Agent,正在接棒大語言模型 LLM,成爲 AI 圈最火的話題。
目前,AI 創投圈的衆生相,大概是這樣的:
大廠俱樂部:OpenAI 内部員工聲稱,AI Agent 是 OpenAI 的新方向;微軟嘗試推動 copilot,讓 AI 以助理的角色落地,這是一種典型的 AI Agent 場景;英偉達推出了 Voyager,這個 AI Agent 可以自主寫代碼,獨霸遊戲《我的世界》;國內商湯也推出了通才 AI 智能體;阿裏推出了數字員工……
學術圈:今年四月,斯坦福創建了一個西部世界小鎮,讓 25 個 AI Agents 在虛拟小鎮的沙盒環境中模拟人類,與其他 AI Agents 戀愛、派對、協作、約會等。另外,也有學者開始利用 AI Agents 設計複雜科學實驗,包括自動上網閱讀論文、研究抗癌藥物……這些前沿探索讓人大開腦洞。
創業圈:AI Agent 并不隻是頂級科學家的遊戲,目前已經湧現出了 Camel、AutoGPT、BabyAGI、AgentGPT 等非常多的項目,并有一大批開源社區開發者和創業者,利用這些開源項目打造一些實用工具。比如 aomni,就是一個幫助用戶抓取網絡信息并郵件發送的 AI Agent 應用程序。
投資圈:AI Agent 被認爲是 " 通往通用人工智能(AGI)時代的開始 ",其爆發是 " 鐵闆釘釘 ",有矽谷創業者表示,跟投資人聊到 Generative Agents ,大家都特别期待,并希望多了解、靠的更近,在後續爆發時反應更快。
從這些判斷來說,說 "AI Agent 開啓大模型下半場 ",還爲時尚早,但 "AI Agent 是大模型的商業化标配 ",應該是清晰的了。
所以,接下來我們應該會看到,更多大廠和創業公司,都在 AI Agent 上有更多動作。
那麽,AI Agent 究竟是什麽?爲什麽說它是大模型商業化的必要條件?
大模型心高氣傲
用戶仍不買單
這裏我們先把 AI Agent 放在一邊,來看看大模型究竟是一個什麽狀況。
相信大多數讀者都認可,大模型是一個高願景、高投入、高門檻的東西,往情懷說,可能實現通用人工智能,徹底改變社會;往世俗說,可以重構業務 / 産品,讓科技企業業績狂飙。
但這些都有建立在,大模型能夠真正商業化落地,回收研發成本,良性可持續發展的基礎上。
幾個月下來,大模型的兩個商業模式,是比較有效的:一個是各類行業政企對大模型的私有化本地部署;一個是通過雲、AI 服務器等售賣大模型所需要的算力。
目前,已經有國內廠商發布了相應的業務報告,已經從行業私有化部署的需求中獲得了千萬級收入。
但是,僅靠 ToB 業務,顯然不能支撐起一個大模型的商業模式。
一場技術革命,核心技術一定要流淌出去,讓幾十億普通用戶用起來,才能創造出經濟價值。家用 PC、互聯網、智能手機,都是在大衆普及之後,諸多科技企業的市值一飛沖天。
現在,巨頭們都爲訓大模型投入了大量資源,尤其是基礎模型,動辄千億、萬億的參數規模,必須讓大衆用戶用起來。
那麽,實際應用體驗怎麽樣呢?
閑聊、畫圖、創意之類的場景容錯率高,就算 AI 答錯了用戶還覺得 " 萌萌哒 ",這部分應用已經很卷了,比如 "AI 證件照 "。而絕大多數場景,都是需要 AI 來自動幫助自己處理較爲嚴肅的任務,與其他環境條件進行協作,應對長線條、連續性的業務,不要出現太多錯誤,不然人還得大量參與,并不能真的提高生産力。
這類場景,顯然目前,一個龐大且複雜的通用大模型,是不能很好地解決的。
就拿我這種撰稿來說,讓大模型幫我寫稿子,它可能有幻覺,提到的事件 / 新聞 / 論文我都得再次複查确認一下,比我自己找資料還費事,不夠精準,想一個創意還得我用提示詞啓發半天,都不一定有能用的,又慢又累,還不如自己寫。
不能一步到位,自動化地完成任務,需要大量人類參與幹預 review,是目前大模型在嚴肅場景中應用的一大難點,也直接影響到了大模型落地和商業化的進展。
怎麽辦呢?大模型想要表現出色,急需一群幫手,那就是 AI Agents。
真 · 解放生産力
AI Agent 爲什麽神奇?
試想一下,如果大模型能自己全天 7*24 小時工作,還不需要人工參與,自己就能完成各種任務,人隻要偶爾回到電腦前、辦公室看看它做的咋樣,這才是大模型的正确打開方式啊。
OpenAI 在 GPT-4 發布會上,确實也展現了一些自動化完成任務的能力,比如讓 GPT4 識别草圖生成網頁,step by step 一步步修改自己代碼中錯誤。
但是,這種能力怎麽被開發者和普通用戶用到呢?很多開發者都反應,直接使用 GPT4 寫代碼還是得自己 debug,并不能看圖生成直接用的代碼,有時候不如不用。
大模型廠商也爲難啊,我已經開放了 API,要更專業精準精細化的能力,還得有人來進一步開發,這就把接力棒交給了 AI Agent。
AI Agent(智能體),是 AI 在環境中的自動化實體,有四個核心特征:
1. 通過傳感器感知周圍的環境。這個環境,既可以是虛拟的,比如沙盒遊戲、模拟訓練系統、自動駕駛模拟器等,也可以是物理的,比如馬路、房間、流水線等。
2. 可以自主做出決定。
3. 由執行器 / 效應器一起來采取行動。
4. 基于績效最大化和結果最優化來學習進步。
從這個角度看,其實人類自己也是一種 " 智能代理 "AI Agent,我們可以通過眼睛、耳朵、皮膚等感知外界環境的變化,再通過大腦做出決策,用嘴說、用腿走來做出行動,并且根據獎勵反饋來不斷調整适應外界環境。
其實,Agents in AI 也是一樣的邏輯。就拿自動駕駛場景的 AI Agent 來說,就需要傳感器來采集信息,感知道路車輛行人等環境因素,再由系統自動決策,驅動油門、制動器等設備做出相應的反應。
這也被稱爲 AI Agent 的 PEAS 模型。我們給大家簡單做個表,感受一下:
那麽,具體在大模型上,AI Agent 可以帶來什麽影響了?主要有以下幾個關鍵的作用:
第一,拆解任務。
大模型要和某個具體領域結合,面對的用戶需求是比較籠統的,過程往往會涉及到多個步驟。就好比用戶說 " 要有光 ",孤立的大模型既不知道所在的環境有什麽燈具,也不知道怎麽控制,所以有了大模型也不能搞定這個看似簡單其實複雜的任務。
而 AI Agent 具有任務規劃能力,可以自動理解并決定,如何規劃步驟、分配資源、優化決策,進而完成指令,提升了大模型處理任務的效率和精度。
谷歌大腦研究團隊的一篇論文中,就讓大語言模型把任務步驟分解的推理過程,也就是 " 内心獨白 " 都說出來,再去做相應的動作,一下子就提高了大模型答案的準确性,在多個數據集上都取得了 SOTA 效果,讓大模型胡說八道的情況有所改善。
第二,自動執行。
AI Agent 被設計爲獨立思考和行動,用戶隻需要給它一個任務,讓它做事就可以了。AutoGPT 的典型案例就是點披薩,不需要用戶自己輸入地址、選擇口味,AI Agent 将所有點餐步驟都大包大攬,自動執行,人在一邊看着,發現出錯及時糾正就好了。
AI Agent 不止能使用互聯網,還可以在物理環境中工作,控制機器人拿快遞、無人車、自動駕駛等。
有了 AI Agent,用戶和大模型之間的交互,會更加自然、簡單、快速,減少人工參與,真正提質增效。比如遊戲世界中,AI Agent 可以自動跟玩家展開對話,提供開放式的交互,根據玩家的反饋來設計無限故事線,真正讓遊戲做到千人千面;物理世界中,AI Agent 自動生成指令和操作,驅動機械身體,爲人類提供家政服務,在工廠裏自動化作業,不依賴人類的指導就能完成。
第三,節約資源。
AI Agent 像人一樣,能夠使用工具,也就是調用 API,來處理更加複雜的任務,這就很好地擴展了大模型的能力,減少了對資源的浪費和過度消耗。
比如 AutoGPT 寫代碼,要對專有信息源數據、算力資源等進行訪問,這個過程中 AI Agent 可以自動找到合适的 API 來進行調用,這樣就可以避免浪費其他 API token。還能夠自主學習,對結果進行優化,如果不滿意就重新調用 API。
一般來說,要真正完成一項不明确的用戶指令,比如旅行規劃,需要模型調用多個 API 才能解決問題,自動化強的 AI Agent 無疑能夠很好地節省資源,進而爲用戶節省成本,讓 AI 應用更有吸引力和競争力。
第四,吸引開發者。
對大模型的商業化來說,API 模式需要盡可能多的開發者群體參與,行業模式也需要 ISV 集成商、軟件服務商等。大家都知道,和大廠卷基礎模型是很難有勝算的,更希望在細分的上層應用上找到機會。而 AI Agent 能夠解決具體問題、提高模型效果,驅動數字系統和物理實體,就非常适合來構建超級應用。
如果說 AI Agent 就像是一個最小單位的 AI 生命,那麽大模型廠商就是孕育生命的工廠,而開發者、軟件商等就像是技能培訓班,教會它們一些實用而有差别的技能,到行業和用戶身邊努力工作。
所以,哪個大模型能夠更好地構建 AI Agent,能吸引的開發生态就會更龐大,對商業 B 端用戶的粘性更強,形成一個 AI 平台級的巨大機會。
總結一下,AI Agent 直接影響到大模型的模型效果、服務質量、落地成本、生态能力,将是接下來各個大模型的競争關鍵。
AI Agent 做得好
模型少不了
那你可能會問了,那怎麽才能産生好的 AI Agent 呢?這對大模型提出了哪些挑戰?
我們認爲,AI Agent 想要落地,需要大模型做好以下工作,這也是接下來的競争焦點:
1. 基礎模型。
AI Agent 的能力和效果,是由底層基礎模型的能力決定的。基礎模型有的能力,AI Agent 不一定能用上,但基礎模型沒有的能力,AI Agent 一定沒有。
就拿語言任務來說,GPT-4 提供了很強的自然語言理解能力,但目前真正部署到 AI Agent 和産品中的很少,一些遊戲中的智能體 NPC 還是沒有自主決策的行爲能力的。
再比如,GPT-4 雖然有多模态,但隻開放了語言 API,所以開發者想要用 GPT4 的多模态能力來構建 AI Agent,還做不到,而缺失了圖像、音頻等其他模态的信息,AI Agent 對環境的理解和效果還有待提升。
所以,無論是開源模型,還是閉源模型,想要通過 API 經濟來商業化,基礎模型的能力會直接關系到 AI Agent 的質量,且都還有提升的空間。
2. 數據知識。
想要做好一個 AI Agent,采集和使用數據是基本前提。對于開發者來說,數字任務的數據量已經不成問題,但開發物理世界的 AI Agent,數據成本就非常高了。機器人的控制數據,一般隻能自己采集,通過模拟器或者實體機器人現場采集。但模拟器畢竟不是真實的環境,訓練的效果不一定好,而購買幾百台機器人、無人機真正上路進廠去收集數據,無論是采購成本、政策限制、實際執行等,都有不小的困難。
這一點上,擁有數據優勢的大模型廠商,比如谷歌、百度的自動駕駛優勢,微軟、谷歌、搜狗、百度等搜索業務的數據優勢,或許能夠爲開發者的 AI Agents 探索減少一些門檻,也會爲這些廠商的大模型建立壁壘。
3. 産品支持。
必須承認,AI Agent 所代表的大模型應用機會,還隻是非常早期,技術上尚未完全成熟,商業化探索更是剛剛邁出了一點點步伐。對于開發者、軟件服務商等來說,比起代碼上怎麽實現 AI Agent,更關鍵也更早一步要考慮的,是想象一個 AI Agent 所應該的去向:
它應該是什麽樣子?叫什麽名字?有性别嗎?以什麽性格跟用戶對話?有哪些用例?會遇到哪些具體的困難?如何評價一個 AI Agent 的成功?
這些更多是産品層面、商業層面的 " 無人區 ",要讓開發者釋放想象力,在各種環境和任務中嘗試創建 AI Agents,需要大模型廠商開放自身的商業生态和更豐富便捷的功能,來減少開發人員的試錯風險,增加與商業用戶對接的強度,去催生更多商業選擇和落地案例。
總而言之,這個領域仍然很新,目前 AI Agent 還沒有明确給大模型産業帶來沖擊,但 AI Agent 會消除人與 AI 系統的大量繁瑣交互已經闆上釘釘,正在發生。
更多 AI Agents 在被推向社區、推向用戶,它們學習,它們改變,它們進化。或許幾個月之後,我們就會看到 AI Agents 的成熟和爆發,這必然會引發大模型領域的又一次洗牌。