陳沛 / 文OpenAI 近期接連發布了兩項與 AI 智能體(Agent)有關的研究成果,分别是智能體的測試基準 MLE-Bench 和多智能體協調框架 Swarm。
OpenAI 的發布引發了很多關注和讨論,也将人們的視線又拉回到了能夠自行分析、規劃、決策、執行的智能體上。
實際上,整個 AI 應用領域今年在智能體賽道已經取得了很多進展,特别是模型的函數調用能力和智能體框架已經日趨成熟。
其中,模型的函數調用能力對于智能體自行分析問題并執行實際任務至關重要,能幫助智能體準确完成發送郵件、提交文檔、比價下單等實際任務。
對此美國加州大學伯克利分校今年提出了 BFCL 測試排行榜,從多個維度評估模型的函數調用能力,包括 Single Turn 和 Multi Turn、Non-Live 和 Live、AST 總結和 Exec 總結、幻覺評估、模型成本和延遲等。
該排行榜的測試難度比較大,例如 OpenAI 的 GPT-4 系列模型、Anthropic 的 Claude-3.5 系列模型、谷歌的 Gemini-1.5 系列模型的測試結果最高隻有 50 多分。
不過,美國 AI 公司 Writer 不久前剛剛宣布其新發布的 Palmyra X 004 模型取得了 78 分的高分。Writer 重點提升了新模型調用外部數據庫和應用程序并采取行動的能力、獲取 SKU 數據并與内置 RAG 自動集成的能力、代碼生成與部署能力、結構化輸出和執行能力(包括郵件、CRM、XML、日志等),從而顯著增強了函數調用能力。
雖然這一初步結果還沒有正式進入 BFCL 測試排行榜單,但是已經表明,要進一步提高函數調用能力不僅涉及模型本身,還要求對于實際應用開發和真實業務場景的理解有者更深刻的理解。
與此同時,智能體的各類自動化框架此前已經有了一些早期的實踐,主要聚焦幫助模型理解環境、規劃推理、執行任務的工具框架和協調流程。
例如在這次 OpenAI 的 MLE-Bench 中,爲了評估智能體在機器學習工程任務上的能力,OpenAI 便重點分析了由 WecoAI 開發的 AIDE 框架、在 MLAgentBench 項目中提出的 MLAB 框架以及由多家機構開發的 OpenHands 框架。
随着函數調用能力和智能體自動化框架逐步推進,今年來已經有各個細分領域的智能體公司競相湧現。
投資過很多 AI 公司的老牌投資機構 Felicis Ventures 不久前專門盤點了各個垂直領域和職能方向的智能體,都已經出現了有代表性的公司。
例如客服領域的 Sierra、銷售領域的 11x、營銷領域的 Jasper、招聘領域的 Mercor、法務領域的 Harvey、運營領域的 Brevian、合規領域的 Norm Ai、稅務領域的 taxgpt 以及房産領域的 reAlpha。
在實際中,相關領域和其它行業的 AI 智能體還有更多,正出現百花齊放的态勢。在這波 AI 浪潮下,AI 應用并不會局限于聊天機器人,而智能體可能才是更合适的産品形态和付費模式。