以下文章來源于王智遠 ,作者王智遠
前段時間,釘釘和幾家做大模型的公司都推出了自己的 AI 助理。這個助理本質上就是一個 AI Agent。那麽,AI Agent 是什麽?對我們普通人來講,有何意義?這篇文章,作者嘗試爲我們解答這個問題。
———— / BEGIN / ————
查了一下:
AI Agent 熱潮,準确來說,從 2023 年 3 月開始。
那時候,一個叫 AutoGPT 框架項目發布,項目利用大型語言模型,能自動把一個大任務拆分成小任務,并使用工具完成它們。
這種技術,将大語言模型處理語言、創造内容,和邏輯推理的能力擴展到了應用場景裏,還加了感知和行動技術,所以,能從頭到尾解決一個簡單的問題。
緊接着,一年時間内,項目引起國外大公司、國内創業者、投資者們極大關注,大家開始積極開發 AI Agent 的框架、平台或具體應用。
外加上去年 11 月,OpenAI 又推出一系列的 GPTs,然後,國内才有不少公司才開始根據各自能力布局應用層、平台層、開發層和運營層等方向,來增加下一波生态下的壁壘性。
因此,人們才認爲它是下一個重要細分發展方向。
可是:任何行業都存在信息差,我周圍有很多人,之前并沒有關注該賽道,爆發後才覺得有必要了解下,但現在市場上各種信息泛濫,讓人眼花缭亂,就帶來不少困擾。
他們不太清楚 Agent 是什麽?爲什麽很重要,未來發展怎樣?借此機會,分享一些信息,希望幫你初步了解這個概念。
01
到底什麽是 AI agent?它是怎麽工作的呢?
先來看一個詞:"agent",中文意思是代理人。
代理人,你可以理解成有人幫你去做某件事。
那麽,AI agent 是什麽?
簡單來說,一個由 AI 技術加持的代理人,它變得更聰明了,可以感知周圍的環境,并且能夠獨立地思考和行動。
你有沒有用過對話式的大模型(LLM),比如:文心一言、Kimi Chat、或者智譜 AI?AI agent 和對話式模型區别在于,你不用一直告訴它要做什麽,隻要給它一個目标,就能想辦法自動幫你完成。
所以,大模型(LLM)要很多各種各樣的數據,數據幫助它,學習的和人一樣具備交流、學習、思考和推理的能力。
不過,它并不完美,時常出現一些奇怪的想法,或者受到環境影響;這時,就能用基于大模型開發的 AI agent 進一步細化問題。
舉個容易理解的例子:你用過小愛同學嗎?假如生病了,以前對它說:" 我不舒服 ",它隻會告訴你去醫院看看,多注意防護。如果更聰明的 AI agent,做法會不一樣。
它能檢測你的體溫和其他健康指标,結合網上的信息,分析之後告訴你:你可能發燒了。" 接下來,還能幫你自動寫好請假條。
如果說:" 幫我在釘釘上發給領導 ",它立刻就能搞定。要是家裏布洛芬不夠了,它甚至可以把藥加入購物車,你确認後付款,很快藥就能送到家。
這就是 AI agent 的聰明之處。
所以,它的工作原理是什麽呢?主要有四部分:
感知
信息處理
執行
輸出
感知是第一步。AI 通過傳感器、攝像頭、麥克風這些外部設備來感知周圍的世界。比如你說:" 我不舒服 ",這句話就能通過麥克風被捕捉到。
信息處理,像把一個通用的大模型和很多專業的知識庫結合起來。比如:健康數據和家裏的藥物存量,你告訴它這些信息,它就能幫你保存并做出決策。
寫請假條、在線購買藥品,這些都是系統根據它的決策來完成的具體工作。完成之後,系統會告訴你結果。
一個完整的智能體(Agent),好比人類和周圍環境互動的過程,它由兩部分組成:一部分是智能體自己,另一部分是它所在的環境。
智能體像生活在物理世界中的人類,而物理世界是它的外部環境,人類感知周圍的世界,理解環境中隐藏的信息,再結合自己的記憶、對世界的了解來做計劃、做決定和采取行動一樣;行動又會影響環境,産生新的反饋。
人類根據反饋再次做出決策,從而形成一個不斷循環的過程。
你看,整個過程像不像馬克思主義的「實踐論」?有個目标後,從認識開始,實踐得出理論知識,再把知識應用回實踐中去。
這就是,AI Agent 神奇之處。
02
不過,由于大模型本身能力還在不斷發展中,智能體形态、應用場景也就更晚一些,所以,看似短短一年内,探索了多種實現智能體的方式,但大部分還處在概念驗證、産品演示階段,常見問題也相對明顯。
包括:項目文檔不完整、複用效果不穩定、任務拆分過細,導緻成本過高,以及推理能力不夠,更主要的原因,還有跨平台能力如何解決等等。
我身邊愛寫作、閱讀的朋友們都有一個共同的習慣:
他們會收藏一些有用的信息。通常,信息被臨時記錄在備忘錄中。随着時間往後推,記錄東西多了,管理起來就比較麻煩。
前段時間,我琢磨能不能創建一個完整的流程,自動化處理,折騰半天,雖然搭建成功流程自動化,但實際使用起來的效果并不理想。
所以,許多平台廠商、研究機構、創業公司推出各種單一智能體、多組合智能體、以及機器人自動化(RPA)等框架項目,但從實際調研和行業反饋看,還要叠代。
不過,這個框架的總體思路,可以用一個公式概括:
Agent = LLM(大型語言模型)+ Planning(規劃)+ Feedback(反饋)+ Tool use(工具使用)
當我們做規劃時,不僅隻看當前情況,還會考慮記憶、過去的經驗,以前的反思和總結,還有對世界的了解也加入進來。
而現在以 ChatGPT 和其他爲首的國内大模型,更像一個固定不變的知識庫,它不能直接和環境互動,雖然它們可以進行邏輯推理、基本規劃,但不能感知周邊的一切,來進行自主反饋。
在我看來,智能體能通過各種方式獲取反饋。
比如:
如果我們把和對話的 ChatGPT 視爲一個智能體,那麽,通過文本框輸入的回複就是給它的反饋,這種互動後,它能調整自己的回答,而不是一次次再教育。
還有,更進一步地,智能體可以使用外部工具來增強它的功能,解決更複雜的問題。
例如:
它可以用天氣 API 來獲取天氣預報,如果沒有工具,智能體還能學習适應環境變化的策略,來應對挑戰。
所以,一個完整 AI 智能體應該能夠主動和環境互動。
而大型語言模型是它潛在能力的核心,未來發展方向,是創建一個從頭到尾的系統,這将依靠它有效地使用周圍的工具,來實現更廣泛的應用。
03
那麽,它爲什麽很重要?我爲什麽要深入理解呢?
首先,AI 智能體将會引領軟件行業進入一個新的時代,我們可以叫它 "3D 打印時代 "。什麽意思呢?3D 打印技術普及時,人們很方便地 3 可以打印出各種 " 實體物品 "。
在所謂的 "3D 打印時代 ",開發、定制軟件将變得跟打印文件一樣簡單、快速。公司、個人想要什麽?都根據自己的需求,很快找到解決方案。有一個科學家,名叫 Andrej Karpathy,他在特斯拉負責開發、優化自動駕駛技術。
他在推特上說過,我們可以利用大數據、強大的計算能力來解決過去需要很多人力和時間的複雜問題。這也是爲什麽那麽多人對 AutoGPT 感興趣的原因。
其次,AI 智能體能減少軟件的生産成本。你學過編程沒?以前編程,要寫大量臨時文件、測試方案,還要長期保存下來,以便不時之需;現在的編程,完全可以自動化制作,成本幾乎爲零;這意味着,原來需要上千萬人才能完成的軟件任務,現在少量的人就可以搞定。
還有一點是,智能體靈活滿足各種需求。以前,我在幾家 C 輪公司工作過,技術人員占了一半,因爲用戶很多、開發的東西也特别多。不僅要做商城,還要做 CRM 系統,隻有用很多人力才能提高效率。
現在情況不同,很多基礎的需求直接交給智能體來處理。這就像,我們從大批量生産,轉變成了小批量快速響應的模式。如果把大語言模型看作人類思考的 " 系統 1",即負責快速、直覺的思考,而 AI 智能體則類似于人類的 " 系統 2",負責慢速、分析性的深入思考。計算機專家,Andrej Karpathy 曾提到:大模型可以快速産生反饋,但也容易産生誤判。
AI 智能體目标是建立一個個小框架,讓 LLM 循序漸進的思考,反而更能做出可靠的決策。我以前在網上搜索學術文章時,要分兩步篩選信息:首先,根據研究領域進行初步篩選;然後,根據第一次搜索結果,進一步篩選出與我期望最相似的文章。這個過程通常要多次查詢和調整,耗時又麻煩。後來,情況大有改觀。
我用 RPA 後,它按照要求自動篩選,并在第一輪結果後精準查找,所以,這就像 APP 的推薦系統,你可以根據需要,定制自己的智能體。
所以,基于大模型的 Agent,改變了獲取信息的方式,未來會有更多人有自己的 Agent,幫它當合作夥伴,你可以想想,如果有個小助手,你會讓它做什麽?
04
那麽,AI Agent 有什麽不同類型呢?因爲 Agent 技術還不是完全成熟,所以,Agent 平台也在初期階段,現在一些比較固定的工作流程,或有詳細标準 SOP 的程序,都在封閉環境下進行。
即便一些比較受歡迎的平台,它們在 API 生态系統,工作流程再組合上,還是不夠完善。我盤了一下,AI Agen 平台大緻有三類:一類,面對公衆和非開發人員,基于知識庫和數據庫的簡單聊天機器人(Chatbot);如 " 類 GPTs",它提供标準界面、流程。國内字節的扣子(Coze)、阿裏的 AI 助理市場。
另一類,面向開發者的綜合開發平台:這類平台幫助開發者使用各種 API、第三方庫和代碼嵌入,進行 Agent 的流程調優。
例如:Coze 海外版、百度靈境矩陣全代碼版,阿裏、亞馬遜等提供模型托管,支持開發者開發應用。它們可以能解決複雜問題、有多個工作流程安排的複雜場景在裏面。
第三類是企業級開發平台:專門給企業工作流程制作的智能化。比如:TARS-RPA-Agent、CubeAgent 和 Torq 等。瀾碼科技的 AskXbot 平台,以及 360 的 " 大模型 + 企業知識庫 +Agent" 的解決方案。基于該框架下又能進行行業結構,應用場景再次劃分。
因爲大家發展速度真的很快,所以,從實際情況來看,首先需要做的是:
第一步,豐富通用和特定場景的工作流程。這意味着,要創建一些标準的流程,這樣不同的情況下都能用。
第二步,深入地學習和積累專業知識。
這樣,第三步,平台能更好地重複使用已有的工作流程,也能更靈活地結合不同的工具。
同時,還要探索适合的商業模式,這樣才能滿足 AI 時代的需求。簡單說,就是要搞清楚怎麽通過 AI Agent 賺到錢,同時确保 AI 平台能不斷進步,更好地服務大家,很重要。
更直白一點說:産品營銷圈,有一個很重要概念叫做 PMF(Product-Market Fit,産品市場匹配度)。
如果一個産品找到它的 PMF,就找到了自己的市場立足點,開始有了用戶黏性。在 AI 大模型産品領域裏,大模型要找到自己的 TPF(Technology Product Fit,技術産品匹配)。
技術發展比較快時,AI 從業者,要從技術、産品和市場三個角度全面考慮,尋找一個中間值,三者,完美匹配的時,才是 AI Agent 解決具體需求,賺到前的高光時刻。我們不能總說技術厲害,而忽略市場是否需要。
前段時間,跟一個老闆溝通企業内部流程再造時,就提到該問題,他說:看似很多冗餘工作,AI Agent 可以解決,但是,AI Agent 解決前,總要先有人得先用好他。
舉個例子:服裝設計公司,面臨一個重大挑戰,批量生産服裝時,要設計和制作多個樣闆,這個過程傳統上完全依賴人工;現在,AI 智能體可以介入這一過程,但到底能處理到哪一步呢?精确度足夠高嗎?這些都要進一步的探索、測試。
所以,國内 Agent 發展還未達到其真正潛力,大多隻是些簡單的聊天機器人。
缺少反思、規劃、環境感知能力,而這些能力,恰巧構成高級 AI Agent 的核心要素。總結而言 AI Agent,進一步叠代工作流。
據我所知,目前市面有很多 agent 搭建工具,如果你想進一步了解這個賽道,親自試試,是最快的方法。
作者:王智遠,人人都是産品經理專欄作家
來源微信公衆号:王智遠
原文标題:互聯網營銷兩大宗師:周鴻祎和雷軍做個人 IP 有什麽不同?
題圖來自 Unsplash ,基于 CC0 協議