七月初,OpenAI 一篇博文讓 AI 智能體的熱潮席卷全球,業界對 AI 智能體的興趣達到了一個新的高度。
智能體被視爲大模型之後的又一熱點。如在雷峰網公衆号 AI 科技評論之前 " 具身智能十人談 " 欄目對聯想 CTO 芮勇的專訪中,芮勇就認爲,AI 發展的三部曲是從小模型到大模型,再到智能體。這也是聯想很早就關注到了 OpenAI,并快速跟進智能體研究的原因。
首先要搞明白一個問題:AI 智能體和我們熟悉的 AI 助手到底有什麽不同?
表面上看,它們似乎都是幫助我們完成任務的工具。可 LangChain 的創始人 Harrison Chase 告訴我們,差别其實非常大。
AI 智能體指的是一個可以觀察周遭環境并作出行動以達緻目标的自主實體。通俗地說,就是一個具備 AI 能力的主體,可以是硬件也可以是軟件,但一般都是軟件程序,比如 LangChain。
LangChain 是一個開源框架,它的特别之處在于,你隻需幾行代碼就可以快速搭建 AI 應用。這讓創建複雜的智能體變得像搭積木一樣簡單。
Harrison Chase 創立了同名公司 LangChain 後,還陸續推出了 LangGraoh 和 LangSmith 用于解決更複雜的問題。
問題來了:這些智能體真的比 AI 助手更強大嗎?
對此,Harrison Chase 的觀點非常明确。他認爲,AI 助手的核心在于輔助人類做決策,而智能體的核心則是自主行動,獨立決策。
AI 助手就像副駕駛座上的幫手,幫你指路、拿東西;而 AI 智能體則是司機,它能夠自己決定路線和速度,獨立工作、處理一系列任務,完全不需要人類的每一步指引。
早期的 AI 智能體,比如 BabyAGI 和 AutoGPT,曾被質疑爲換湯不換藥的 AI 助手炒作版。因爲它們的任務過于籠統、缺乏明确的規則,而實際上,企業真正需要的是能夠根據具體需求定制的智能體。
而當今正火熱的另一個概念 " 具身智能 ",其本身也是一種有身體并支持物理交互的智能體。LangChain 智能體是旨在增強 LLM 能力的強大組件,使它們進行決策和采取行動,從而實現更高級的智能形式。
Harrison Chase 把從用戶輸入到輸出,LLM 在調用中處理和流轉信息的整個過程稱爲 " 認知架構 ",并表示定制的認知架構能讓 AI 智能體根據需求反複執行相同的任務,自動化大量繁瑣的事務,實現用戶操作的極緻簡化。
當然,AI 智能體能做的不止是流水線工作這麽簡單,在幫助用戶給繁瑣的工作做減法的同時,Harrison Chase 還特别關注用戶體驗,通過定制做了新的加法。
一方面,AI 智能體能和用戶互動,給用戶更貼心的私人定制服務,另一方面它們還能根據用戶反饋不斷優化,越用越智能,讓用戶可以完全放手丢給 AI 智能體去處理。
不過,對于那些目标是做通用認知架構的企業來說,沒必要費心去提升認知架構的水平。隻有那些盯準定制化需求的企業才需要像上個世紀的啤酒廠商一樣,必須花大力氣去搞自己的發電系統,才能讓自己的啤酒味道更好。
目前,AI 智能體的研究仍然處于起步階段,普林斯頓的研究表明,他們的智能體能解決 12.5% 的 GitHub 問題,而依賴檢索增強生成(RAG)時隻有 3.8%。
但是 Harrison Chase 非常看好 AI 智能體在客戶支持和編碼方面的潛力,尤其是編碼。
在成熟的 AI 智能體的協助下,人人都能成爲軟件開發工程師。
一個不會寫代碼的設計師,隻要告訴 AI 智能體想要一款特定功能的應用程序,智能體就能根據需求自動生成代碼,把創意變成現實。這将徹底改變我們工作和創造的方式。
Harrison Chase 認爲未來的工作,将不再被日常瑣事困擾,而是讓 AI 智能體承擔繁重的任務,人們隻需要專注于創造和享受生活。
在紅杉資本的播客中,Harrison Chase 還綜合技術和産品,分享了更多他關于 AI 智能體的訓練、演變和未來前景的見解。
完整播客内容可以點擊以下鏈接一鍵收聽,雷峰網也對播客内容做了不改原意的精編處理,整理出文字版提供給大家:
https://www.sequoiacap.com/podcast/training-data-harrison-chase/
AI 智能體的發展
Sonya Huang:智能體(Agent)是當前大家都非常關注的話題。自從 LLM(大語言模型)興起以來,你一直在智能體構建的前沿。能給我們介紹一下智能體的定義嗎?
Harrison Chase:要定義智能體其實有些棘手。人們可能對它有不同的理解,這很正常,因爲我們還處在 LLM 和智能體相關發展的早期階段。
我個人的理解是,智能體是由 LLM 決定應用程序的控制流程。
舉個例子,在傳統的 RAG(檢索增強生成)鏈中,流程是預設的:生成搜索查詢、檢索文檔、生成答案,最後反饋給用戶。
而智能體則将 LLM 放在中心,讓它自主決定下一步的行動。有時它會發起搜索,有時直接回複用戶,甚至可能多次查詢,直到得出答案。LLM 能動态決定整個流程。
工具的使用也是智能體的重要特征。當 LLM 決定行動時,它通常會調用不同的工具來實現。此外,記憶也是關鍵,當 LLM 确定下一步時,它需要記住之前的操作。
總的來說,智能體的核心就是讓 LLM 決定應用程序的控制流程。
Pat Grady:你提到的很多都和 " 決策 " 有關,我想知道智能體是否就是一種行動方式?這兩者是否相輔相成?智能體的行爲是否更偏向某一方面?
Harrison Chase:我認爲它們确實是相輔相成的。智能體的很多行爲本質上是在決定如何采取行動,而這個過程的難點在于找到正确的行動。因此,解決 " 決策 " 問題通常也能解決 " 行動 " 問題。一旦決策确定,LLM 系統就會執行相應的行動并反饋結果。
Sonya Huang:智能體與鏈的主要區别在于 LLM 自主決定下一步,而不是預先設定步驟。這種區分是否準确?
Harrison Chase:是的,這是一個很好的描述。不過,實際上有不同的層次。比如,簡單的路由器可能做的是鏈中的路徑選擇,雖然 LLM 依然在決策,但這隻是基礎應用。而完全自主的智能體則是另一種極端。整體來看,确實存在一些細微的差别和灰色地帶。
Sonya Huang:明白了,智能體的範圍從部分控制到完全自主決策都有,這很有趣。你覺得 LangChain 在智能體生态系統中扮演了什麽角色?
Harrison Chase:我們現在的重點是讓人們更容易創建介于這兩者之間的智能體。我們發現,最有效的智能體通常位于這個中間地帶。盡管完全自主的智能體吸引人,且已有原型,但它們常常偏離預期。因此,我們的工作集中在 " 編排層 ",以便構建靈活但仍有一定約束的智能體。如果你想深入了解,我們可以再讨論。但總的來說,LangChain 的願景是成爲一個編排框架。
Sonya Huang:我記得在 2023 年 3 月左右,像 BabyAGI 和 AutoGPT 這樣的自主智能體引起了很多關注,但它們的首批叠代似乎沒有達到人們的期望。你認爲原因是什麽?現在智能體的炒作周期處于什麽階段?
Harrison Chase:确實,AutoGPT 的出現開啓了智能體的炒作周期,尤其是在 GitHub 上受歡迎。這個熱潮從 2023 年春季持續到夏季,之後稍微降溫。到了 2024 年,我們開始看到一些實用的應用,比如 LangChain 與 Elastic 的合作,推出了 Elastic Assistant 和 Elastic Agent 等生産級智能體。這些應用,如 Klarna 的客戶支持機器人,引發了更多讨論。此外,Devon 和 Cira 等公司也在智能體領域進行嘗試。
關于 AutoGPT 未能完全成功的原因,我認爲主要是它們過于籠統,缺乏明确的任務和規則。企業希望智能體能完成更具體的工作,而不僅僅是模糊的自主智能體。因此,我們看到的智能體更多像是定制的認知架構,盡管靈活,但需要更多的工程投入和開發時間,這也是這些系統一年前還未出現的原因。
定制認知框架
Sonya Huang:你前面提到了 " 認知架構 ",我很喜歡你對它的思考方式。能否解釋一下,什麽是認知架構?我們應該如何理解它?有沒有一個合适的思維框架?
Harrison Chase:是的,我理解的認知架構,基本上是指在使用大語言模型(LLM)時,你的系統架構是什麽樣的。
如果你正在構建一個應用,其中涉及多個算法步驟,你是如何利用這些算法的?你是否用它們生成最終答案?還是用它們在不同任務間進行選擇?是否有非常複雜的分支,甚至包含多個循環?
這些都是認知架構的不同表現形式。認知架構其實就是指,從用戶輸入到輸出,LLM 在調用過程中如何處理和流轉信息。
尤其是在把智能體投入生産時,我們發現流程通常是根據具體應用需求而定制的。
例如,某個應用可能需要先進行一些特定的檢查,再執行幾個步驟,每個步驟又可能包含循環或分支。這就像是你在畫一張流程圖,而這種定制化的流程越來越普遍,因爲人們希望智能體在應用中更可控。
我之所以稱它爲 " 認知架構 ",是因爲 LLM 的核心優勢在于它的推理能力,你可以通過編碼這種認知心理模型,将其變成軟件系統中的某種架構。
Pat Grady:你覺得這是未來的發展方向嗎?我聽到了兩點,一是非常定制化,二是它聽起來更像是硬編碼的。你認爲這是我們當前的方向,還是暫時的解決方案?未來會出現更優雅的架構,或者一系列标準化的參考架構嗎?
Harrison Chase:這是個很好的問題,我花了很多時間在思考這個。我認爲,在極端情況下,如果模型在規劃上非常強大且可靠,你可能隻需要一個簡單的 for 循環,反複調用 LLM 來決定下一步該做什麽,然後執行操作并再次循環。
所有你希望模型遵循的約束都可以通過提示傳達,而模型也會按你預期的方式執行。盡管我相信模型在推理和規劃方面會越來越好,但我不認爲它們會完全取代手動構建的架構。
首先是效率問題。如果你知道某個步驟總是需要在另一步驟之後執行,那麽你可以直接把它們按順序安排好。
其次是可靠性,尤其是在企業環境中,人們需要一定的保障,确保關鍵步驟按預期執行。
因此,我認爲雖然構建這些架構可能會變得更容易,但它們仍然會有一定複雜性。
從架構的角度看,你可以認爲 " 在循環中運行 LLM" 是一種非常簡單但通用的認知架構。而我們在實際生産中看到的更多是定制化、複雜的架構。
我覺得随着時間推移,通用規劃和反思功能會被直接訓練到模型中,但那些需要高度定制的規劃、反思和控制功能依然不會被取代。
Sonya Huang:可以這樣理解:LLM 可以完成通用的智能體推理,但在具體領域中,你還需要定制化的推理能力。這些是無法完全内置到通用模型中的。
Harrison Chase:完全正确。自定義認知架構的核心思想在于,你讓人類來承擔規劃責任,而不是完全依賴 LLM。
盡管某些規劃功能可能會越來越接近模型和提示,但很多任務的規劃過程依然複雜,無法完全自動化。我們還需要時間,才能發展出高度可靠、即插即用的解決方案。
用戶體驗設計
Sonya Huang:我相信智能體将成爲人工智能的新潮流,我們正從 AI 助手轉向 AI 智能體。你同意嗎?爲什麽?
Harrison Chase:我基本同意。智能體的潛力在于,傳統的 AI 助手依賴人類輸入,任務能力有限。而智能體能更獨立地行動,偶爾與用戶互動,這使它們能自主處理更多任務。
但賦予它們更多自主性也帶來了風險,例如可能出現偏差或錯誤。因此,找到自主性與可靠性之間的平衡将是一個重要的挑戰。
Pat Grady:你在 AI Ascent 上提到了用戶體驗。通常,我們認爲它與架構位于光譜的兩端——架構是幕後工作,而用戶體驗是前端展示。
但現在似乎情況有所不同,用戶體驗實際上可以影響架構的有效性。比如,當出現問題時,你可以像 Devin 一樣,回溯到規劃過程中出錯的地方。
你能談談用戶體驗在智能體或 LLM 中的重要性嗎?另外,你覺得有哪些有趣的發展?
Harrison Chase:用戶體驗在當前非常重要,因爲 LLM 并不完美,時常出錯。聊天模式特别有效,它允許用戶實時查看模型的反應,并及時糾正錯誤或追問細節。雖然這種模式已成爲主流,但它的局限在于依然需要用戶的持續反饋,更多是一種 " 助手 " 的體驗。
如果能減少用戶的介入,讓 AI 自動完成更多任務,将帶來巨大的變革。
不過,如何在自動化和用戶參與之間找到平衡是個難題。一些有趣的想法正在嘗試解決這個問題。例如,創建一個智能體透明度列表,讓用戶清晰了解 AI 執行的每一步。如果某個步驟出錯,用戶可以直接回溯并調整指令。
另一個創新的想法是引入 " 收件箱 " 體驗,讓智能體在後台并行運行,當需要人類幫助時,它可以像發郵件一樣提醒用戶,這樣用戶就可以在合适的時機介入,而不必全程監控。
在協作方面,智能體可以先起草文檔,用戶作爲審閱者提供反饋。實時互動的體驗也很吸引人。
例如,用戶在評論時,智能體能夠立即修複問題,就像在 Google Docs 中一樣。這種互動方式能夠增強用戶體驗,使 AI 真正成爲高效的工作夥伴。
Pat Grady:你提到的關于智能體如何從交互中學習,真的很有意思。如果我每次都要重複給同一個反饋,那體驗就會變得很糟糕,對吧?系統該如何提升這種反饋機制?
Harrison Chase:确實!如果我們不斷給智能體相同的反饋,而它卻不改進,那無疑會讓人沮喪。因此,系統的架構需要能夠從這些反饋中學習,不僅僅是修複當前的問題,還能積累經驗,避免将來再犯。
這方面的進展雖然還處于早期階段,但我們已經花了很多時間在思考這些問題上,并相信随着技術的進步,智能體會變得越來越 " 聰明 ",從而帶來更流暢的用戶體驗。
讓啤酒變得更好
Sonya Huang:在過去六個月,智能體領域取得了顯著進展。普林斯頓的研究表明,他們的智能體能解決 12.5% 的 GitHub 問題,而依賴檢索增強生成(RAG)時隻有 3.8%。
盡管有所進步,但 12.5% 仍不足以取代實習生。你認爲智能體的發展到了哪個階段?它們能否在面向客戶的環境中可靠部署?
Harrison Chase:是的,SWE 智能體相對通用,可以處理多種 GitHub 問題。定制智能體的可靠性雖然沒有達到 "99.999%",但已經足夠在生産環境中使用。例如,Elastic 的智能體已在多個項目中應用。雖然我沒有具體的可靠性數據,但它們足夠可靠,可以上線。通用智能體面臨更大挑戰,需要更長的上下文窗口和更好的推理能力才能廣泛應用。
Sonya Huang:你提到過思路鏈(Chain of Thought)等技術,能分享認知架構對智能體性能的影響嗎?你認爲最有前途的認知架構是什麽?
Harrison Chase:AutoGPT 等項目沒有成功的一個原因是早期 LLM 無法明确推理第一步該做什麽。思路鏈等技術爲模型提供了更好的推理空間。
姚舜宇的 ReAct 論文是第一個專門用于智能體的認知架構之一。ReAct 結合了推理和行動,讓模型不僅執行動作,還能進行推理,從而提高其能力。現在,随着模型訓練的深入,顯式推理步驟變得不再那麽必要。
當前主要挑戰在于長期規劃和執行,模型在這方面表現不佳,需要認知架構幫助生成計劃并逐步執行。反思則幫助判斷任務是否完成。
總的來說,規劃和推理是目前最重要的通用認知架構,未來随着訓練改進,這些問題将得到更好的解決。
Sonya Huang:你提到傑夫 · 貝索斯說過 " 專注于讓你的啤酒更好 "。這讓我想到早期許多啤酒廠選擇自己發電。今天很多公司面臨類似問題:是否需要控制認知架構來提升業務?構建和優化這些架構真的能 " 讓你的啤酒更好 ",還是應該放棄控制,專注于用戶界面和産品開發?
Harrison Chase:這取決于你構建的認知架構類型。如果是通用架構,可能不會直接提升業務。未來,模型提供商會專注于通用的規劃和認知架構,企業可以直接使用這些來解決問題。但如果是高度定制的架構,反映了特定的業務流程或最佳實踐,那它确實能提升業務,尤其在依賴這些應用的領域。
定制的業務邏輯和認知模型可以顯著提高系統表現,個性化後更加精确和高效。盡管用戶體驗和界面設計依然重要,但定制化智能體顯然是企業的一個重要優勢。我認爲通用和定制之間有很大的區别。
編排和可觀察性
LangSmith and LangGraph
Sonya Huang:我們能聊聊 LangSmith 和 LangGraph 嗎?你們解決了哪些問題?特别是在智能體管理方面,你們的産品如何幫助人們更好地管理狀态和提高智能體的可控性?
Harrison Chase:當然可以。LangChain 的推出解決了關鍵問題,尤其是标準化各個組件的接口。這讓我們能夠與多種模型、向量存儲、工具和數據庫進行廣泛集成,這也是 LangChain 受歡迎的重要原因。
LangChain 還提供了一系列高級接口,使用戶可以輕松使用功能,如 RAG(檢索增強生成)和 SQL 問答,同時動态構建鏈的運行時間也較短。我們把這些 " 鏈 " 視爲有向無環圖(DAG),這一點很重要。
LangGraph 解決了與可定制和可控的循環元素相關的問題。循環引入了新挑戰,比如設計持久化層,以便恢複狀态并讓循環在後台異步運行。因此,我們關注如何有效部署長期、循環和人機交互的應用程序。
關于 LangSmith,自公司成立以來我們就一直在研究它,專注于 LLM 應用的可觀察性和測試。
我們發現,LLM 作爲核心時,其固有的不确定性使得可觀察性和測試尤爲重要,以确保能自信地投入生産。LangSmith 的設計使其能夠與 LangChain 無縫配合。
此外,LangSmith 還提供了提示中心,幫助用戶管理和手動審查提示。這在整個過程中顯得尤其重要,因爲我們需要明确 LLM 輸出的新内容。
可觀察性是 LLM 的顯著特征,而測試的複雜性也在增加。因此,我們希望人們能更頻繁地審查内容,而不僅僅局限于傳統的軟件測試。LangSmith 提供的工具和路由正是爲了解決這些挑戰。
可觀察性
Pat Grady:你是否有一種啓發式的方法來評估現有的可觀察性、測試和填空,看看它們在多大程度上适用于 LLM?哪些特征使得現有 LLM 與之前的模型有顯著不同,以至于你們需要開發新産品、新架構或新方法?
Harrison Chase:是的,這确實是一個值得深入思考的問題。尤其是在可觀察性和測試方面,LLM 的複雜性讓我們必須創新。雖然像 Datadog 這樣的工具可以很好地監控,但要深入分析多步驟的應用程序,LangSmith 能提供更精細的痕迹分析,幫助更好地調試和應對 LLM 的不确定性。
測試方面也很有趣。在傳統軟件測試中,通常隻關注結果是否通過,而不進行成對比較。然而,LLM 評估中,像 LLMSYS 這種工具允許并排比較兩個模型,這種方式在 LLM 測試中尤爲關鍵。
另一個挑戰是,LLM 測試中你不會總是有 100% 的通過率,因此跟蹤進展非常重要,确保你在不斷進步,而不是退步。相比傳統測試的通過 / 失敗判斷,LLM 的測試需要更細緻的跟蹤和分析。
最後,人類的參與至關重要。盡管我們希望系統自動化運行,但人工幹預往往更可靠。這和軟件測試中簡單的等式驗證非常不同,我們需要引入人類判斷,使測試更加精确且靈活。
軟件開發的未來
Pat Grady:在深入讨論智能體構建細節前,我想問一個問題。我們的創始人唐 · 瓦倫丁有一個著名的提問 " 那又怎樣?" 如果自主智能體完美運作,那又怎樣?這對世界有什麽影響?我們的生活将如何不同?
Harrison Chase:從更高層面來看,這意味着我們人類将可以關注不同的事情。
現階段,很多行業都依賴重複性、機械性的工作,而智能體的想法是自動化其中的大部分,從而讓我們能夠專注于更高層次的問題。我們可以利用智能體的輸出進行更多創造性和高杠杆的工作,像公司運營中的許多職能可以外包給智能體。
你可以想象自己扮演首席執行官的角色,而智能體負責營銷、銷售等其他職能,自動化大量重複性工作,讓你有更多時間進行戰略思考或産品開發。這将使我們自由地做我們擅長的、有興趣的事情,擺脫那些不太願意做的機械工作。
Pat Grady:你有沒有看到任何現實中的例子,或者有什麽正在開發中的有趣項目?
Harrison Chase:目前兩個最受關注的智能體領域是客戶支持和編碼。
客戶支持是一個很好的例子,很多公司都需要外包這類服務,而智能體可以高效地替代這部分工作,這會非常有力。
至于編碼,它更複雜,涉及許多創造性和産品定位的思考。雖然某些編碼任務确實限制了人的創造力,但如果有智能體可以自動完成這些編碼任務,像我媽媽有一個網站的想法但不會編程,這樣的智能體就能讓她把更多精力放在網站的想法和範圍上,而代碼部分可以自動生成。
客戶支持智能體已經開始發揮作用,而在編碼領域,也有許多新進展,盡管它還未完全成熟,但許多人正開展有趣的項目。
Pat Grady:你提到的編碼問題很有趣,因爲這是我們對人工智能抱有樂觀态度的原因之一。AI 有可能縮短從想法到執行的距離,讓創造性的想法更容易變成現實。像 Figma 的 Dylan 經常談論這一點。
Harrison Chase:是的,自動化可以消除那些阻礙創作的東西,這種 " 從想法到現實 " 的轉換非常吸引人。在生成式 AI 時代和智能體時代," 構建者 " 的定義将發生變化。
今天的軟件構建者大多是工程師,或者需要雇傭工程師。而未來,借助智能體和生成式 AI,構建者可以構建更多的東西,因爲他們可以低成本地利用智能體,獲得所需的知識和能力。這相當于讓智能體商品化了情報,意味着更多人可以成爲構建者。
Pat Grady:我很好奇,對于那些試圖使用 LLMs 構建産品或 AI 的開發人員來說,有哪些問題是你們目前沒有直接解決,但未來可能會考慮的?
Harrison Chase:是的,确實有兩個主要領域。一個是模型層,另一個是數據庫層。
比如,我們并不打算構建矢量數據庫,但關于如何存儲數據,這是個非常有趣的問題。不過,這并不是我們現在的重點。我們也不構建基礎模型,也不專注于微調。
我們更多是想幫助開發者在數據管理上簡化工作流程,但并不打算爲了微調去搭建基礎設施。
有很多公司,比如 Fireworks,正在專門做這些事,這真的很有趣。對于開發者來說,這些問題處于技術堆棧的底層。
同時,另一個值得思考的問題是,如果智能體真的像我們設想的那樣變得更加普遍,将會出現哪些新的基礎性問題?所以說實話,現在就說我們未來會做什麽或者不會做什麽還爲時尚早。因爲我們現在離一個完全可靠的智能體經濟系統還有一段距離。
不過,有些概念已經很吸引人了,比如智能體的身份驗證、授權、支付等基礎設施。
想象一下,未來的某天,智能體給人類支付服務費用,而不是相反!這種場景真的讓人興奮。如果智能體真的像我們想象的那樣流行起來,我們需要什麽樣的工具和基礎設施來支持這一切?
這些問題和開發者社區中構建 LLM 應用程序的需求有些不同。LLM 應用已經在這裏了,智能體正在逐步成熟,但整個智能體生态系統還沒有完全成型。這會是一個非常有趣的發展方向。
Sonya Huang:你剛才提到微調,說你們目前不打算深入這個領域。看起來提示工程和微調常常被認爲是互相替代的工具。你怎麽看現在提示與微調的使用方式?你覺得未來的走向會怎樣?
Harrison Chase:其實,我并不認爲微調和認知架構是互相替代的。相反,我覺得它們在很多方面是互補的。
當你有更定制化的認知架構時,智能體每個部分或節點的職責變得更加具體明确。而在這種情況下,微調就顯得格外有用。因爲當你明确了每個模塊的工作範圍時,微調就可以進一步優化這些模塊的表現。
所以我覺得微調和架構的關系并不是互相競争的,而是各司其職,互相增強的。