品玩 8 月 9 日訊, Arxiv 頁面顯示,由來自清華大學、俄亥俄州立大學和加州大學伯克利分校等機構的研究者組成的團隊近日發布一款測試工具 AgentBench,可用于對大語言模型的能力進行測試。
AgentBench 目前包括 8 個不同的任務,可測試大語言模型在多輪開放式生成環境中的推理和決策能力。實驗結果顯示,GPT-4 當前的表現最佳,而 Claude 和 GPT3.5 分别排名第二、第三。
AgentBench 的數據集、環境和集成評估軟件包已發布在https://github.com/THUDM/AgentBench 上。