家人們,商湯國産大模型也能把工具用明白了!
處理任務時,把要用的工具按順序一一擺好都是小 case。
還能把任務拆成子任務,知道每個子任務要用啥工具。
你沒聽錯,爲探究 LLM 的任務規劃和工具使用能力,商湯最近爲基于 LLM 的 AI 智能體量身打造了一個框架。
結果發現 AI 處理任務時,引入統一工具 - 子任務生成策略,性能還能再次得到顯著提高。
網友直接被驚掉下巴:
自然語言處理領域振奮人心的進展!大語言模型正在徹底改變現實世界的應用。
爲 AI 智能體量身定制一個框架
此前在自然語言處理領域,人們在看 AI 解決複雜任務時更多關注任務理解,而缺乏對工具使用和任務規劃能力的研究。
這不,爲了彌補這一缺陷,商湯的研究人員提出了一種針對基于 LLM 的 AI 智能體的任務規劃和工具使用方法,并設計了兩種不同類型的智能體執行推理過程。
具體來說,研究人員設計了一個包含六個組件的 AI 智能體框架。
六個組件分别是:任務指令(Task Instruction)、設計提示(Designed Prompt)、大語言模型(LLM)、工具集(Tool Set)、中間輸出(Intermediate Output)和最終答案(Final Answer)。
其中,任務指令是智能體的顯式輸入,可以來自系統的人類用戶;設計提示是一種額外的輸入形式,用于引導基于 LLM 的 AI 智能體生成适當的輸出。
△框架演示
要知道,要想增強或取代實際應用中的人工決策,除了任務規劃和使用工具的能力,AI 智能體通常還需要感知能力、學習 / 反思 / 記憶能力、總結能力。
在這裏研究人員總結了包括思維鏈、向量數據庫等方法,來解決這一問題:
但實際上,衆多能力中任務計劃和工具使用(簡稱 TPTU)才是核心能力。
所以,研究人員專注于這兩個關鍵能力,設計了兩種不同類型的 AI 智能體:
一步智能體和順序智能體。
△一步智能體和順序智能體的工作流程,用于評估 LLM 的任務規劃和工具使用能力。
其中,一步智能體 ( TPTU-OA ) 可以從全局角度解釋原始問題,充分利用模型的整體理解能力," 一次到位 " 映射出所有子任務的規劃步驟。
而順序智能體 ( TPTU-SA ) ,側重處理當前的子任務,完成後再請求下一個子任務。可以使模型保持清晰和集中式的關注,允許連續的反饋和進步。
這兩種智能體分别評估 LLM 的整體規劃與逐步推理的能力,可以從不同側面考察 LLM 處理複雜任務的效果。
下一步,研究人員使用不同的 LLM 實例化了這個框架,并在典型任務上評估了其任務規劃和工具使用能力。
一起康康效果如何。
AI 用工具竟然如此順溜
先來看研究人員準備的工具,足足有 12 種:SQL 生成器、Python 生成器、天氣查詢工具、圖像生成器、文本提取器、翻譯器、必應搜索器、Shell 生成器、Java 生成器、Wikipedia 搜索器、辦公軟件、電影播放器。
重點評估 SQL 生成器和 Python 生成器兩種:
SQL 生成器:給定一個輸入問題和一個數據庫,創建一個語法正确的 SQLite 查詢語句。
Python 生成器:給定一個輸入問題和一些信息,生成一個語法正确的 Python 代碼。
測試數據集,則來源于事先準備的120 個問題 - 答案對。
被評估的 LLM 包括 ChatGPT、Claude、上海人工智能實驗室和商湯聯合研發的 InternLM 等:
接下來就是正式評估環節。
任務規劃能力評估
在一步智能體中,研究人員設計了特定的提示,首先評估了基于 LLM 的 AI 智能體的工具使用順序規劃能力。
在這個提示中,智能體被要求從預定義的工具集中選擇工具,并嚴格遵守給定的格式,理解演示以從中學習。研究人員通過将這些提示輸入到評估中,得到了工具規劃的準确率。
結果表明,Ziya 和 ChatGLM 模型在生成正确格式的列表方面存在困難。其它模型主要在生成正确順序的工具或偶爾遺漏必要工具方面存在挑戰。總體而言,解析列表格式的問題通常可以忽略不計。
接着,他們評估智能體不僅能夠規劃工具的順序,還能夠規劃相應的子任務描述的能力。
研究人員設計提示,要求在生成工具順序後,對每個工具生成對應的子任務描述。
結果各個 LLM 的正确率顯著下降,ChatGPT 從 100% 下降到 55%,Claude 從 100% 下降到 15%,InternLM 超過 Claude,僅次于 ChatGPT。
研究人員認爲整體生成工具序列和子任務描述雖有效,但存在難以跟蹤調試錯誤、工具子任務匹配問題等困難。
爲改進這一問題,研究人員進行了專門的規劃評估,要求智能體在複雜問題拆解中生成多個形式爲 { 工具:子任務描述 } 的鍵值對序列。
結果各 LLM 正确率顯著提高,ChatGPT 從 55% 上升到 75%,Claude 從 15% 上升到 90%。
研究人員表示這是因爲工具和子任務統一生成,确保了二者的匹配,避免了獨立生成的問題。
爲了進一步評估,他們擴展了工具集,添加了其他無關的工具,結果穩定,說明提示設計有效,LLM 能識别相關工具。
而在順序智能體中,研究人員設計了可以遞歸生成工具 - 子任務對的提示。
各 LLM 正确率與一步智能體相比普遍提高,ChatGPT 從 75% 上升到 80%,Claude 從 90% 上升到 100%,InternLM 也有 65%。
工具使用能力評估
在工具使用能力評估方面,研究人員首先評估了單一工具使用對 SQL 生成和數學代碼生成的有效性。
SQL 生成綜合評估結果如下,Claude 準确率 100%,ChatGPT、InternLM 爲 90%:
不同 LLM 的 SQL 生成能力截然不同,部分模型适合逐步指導。
數學代碼生成方面,國産大模型 InternLM 表現最優,得分 95%:
然後研究人員還進一步評估了一步智能體、順序智能體多工具的使用。
由于基于用戶界面的 LLM 缺乏調用外部工具的能力,所以這部分僅使用四個基于 API 的 LLM 來做評估:ChatGPT,Ziya,Chinese-Alpaca 和 InternLM。
在一步智能體評估中,ChatGPT 得分 50%,明顯優于其它模型,InternLM 爲 15%,而 Ziya 和 China-Alpaca 都沒有成功完成任何任務。
在順序智能體評估中,ChatGPT 保持了領先地位,性能略有提高,達到 55%。InternLM 也表現出更好的表現,得分爲 20%。
總之,基于 LLM 的 AI 智能體在任務規劃和工具使用方面具備一定的能力,并且通過改進生成策略可以顯著提高代理的性能。
論文傳送門:https://arxiv.org/abs/2308.03427