微軟亞研院新作：讓大模型一口氣調用數百萬個API！

近年來，人工智能發展迅速，尤其是像 ChatGPT 這樣的基礎大模型，在對話、上下文理解和代碼生成等方面表現出色，能夠爲多種任務提供解決方案。

但在特定領域任務上，由于專業數據的缺乏和可能的計算錯誤，它們的表現并不理想。同時，雖然已有一些專門針對特定任務的 AI 模型和系統表現良好，但它們往往不易與基礎大模型集成。

爲了解決這些重要問題，TaskMatrix.AI破繭而出、應運而生，這是由微軟（Microsoft）設計發布的新型 AI 生态系統。

其核心技術近期在《科學》合作期刊Intelligent Computing上發表的論文TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs中正式亮相，作者爲微軟亞洲研究院的段楠博士團隊：

（詳見鏈接：https://spj.science.org/doi/10.34133/icomputing.0063）

TaskMatrix.AI 将基礎大模型與數以百萬計的應用程序編程接口（APIs）連接起來完成任務。

其核心思想是利用現有的基礎大模型作爲類似大腦的中央系統，結合其他 AI 模型和系統的 APIs 作爲各種子任務解決者，以完成數字和物理領域的多樣化任務。

△圖：由 DALL · E 3 生成

TaskMatrix.AI 如何工作？

TaskMatrix.AI 的整體架構由以下四個關鍵組件構成：

多模态對話基礎模型（MCFM）：負責與用戶溝通，理解他們的目标和上下文（多模态），并基于 API 生成可執行代碼以完成特定任務。MCFM 能夠處理文本、圖像、視頻、音頻和代碼等多模态輸入，生成執行特定任務的代碼。它還能夠從用戶指令中提取具體任務，并提出合理的解決方案大綱，幫助選擇最合适的 API 進行代碼生成。

API 平台：提供一個統一的 API 文檔架構，用于存儲數以百萬計具有不同功能的 API，并允許 API 開發者和所有者注冊、更新和删除他們的 API。API 平台通過統一的文檔架構幫助 MCFM 更好地理解和利用各種 API。

API 選擇器：根據 MCFM 對用戶指令的理解，推薦相關的 API。API 選擇器具備搜索能力，能夠在擁有大量 API 的平台上快速定位到與任務需求和解決方案大綱相匹配的 API。

API 執行器：通過調用相關 API 執行生成的動作代碼，并返回中間和最終的執行結果。API 執行器設計用于運行各種 API，包括從簡單的 HTTP 請求到複雜的算法或需要多個輸入參數的 AI 模型。

以上四個組件協同工作，共同構建了一個高效的系統。MCFM 作爲用戶交互的主要接口，負責生成解決方案。API 平台則提供了一個标準化的 API 文檔格式，并作爲一個集中存儲庫，容納了數百萬 API。API 選擇器根據 MCFM 對用戶需求的理解，從 API 平台中選取合适的 API。

最後，API 執行器負責執行由選定 API 生成的代碼，并解決任務。

此外，TaskMatrix.AI 還提供了兩個可學習的機制，以更有效地将 MCFM 與 API 對齊：

基于人類反饋的強化學習（RLHF）：這是一種基礎大模型的通用技術，它使用強化學習方法，利用人類反饋來優化機器學習模型。在 TaskMatrix.AI 中，RLHF 利用這些反饋來增強 MCFM 和 API 選擇器，從而在處理複雜任務時實現更快的收斂和更好的性能。

向 API 開發者提供反饋：TaskMatrix.AI 完成任務後，會将用戶反饋以适當的方式傳遞給 API 開發者，指示他們的 API 是否成功用于完成任務。這種包含 < 用戶指令、API 調用和用戶反饋 > 的三元組不僅展示特定 API 的使用情況，還可以作爲 API 開發者改進 API 文檔的參考，使文檔對 MCFM 和 API 選擇器更加友好和易于理解。

因此，TaskMatrix.AI 可以被視爲一個超級 AI，同時也是一個生态系統，具有以下關鍵優勢：

能夠通過使用基礎大模型作爲核心系統，首先理解不同類型的多模态輸入（如文本、圖像、視頻、音頻和代碼），然後生成調用 API 完成任務的代碼，來執行各種數字和物理任務。

擁有一個 API 平台，作爲各種任務專家的存儲庫。該平台上的所有 API 都有一緻的文檔格式，這使得基礎大模型可以輕松使用它們，開發者也便于添加新的 API。

具有強大的終身學習能力，因爲它的技能可以通過向 API 平台添加具有特定功能的新 API 來擴展，以處理新任務。

能夠提供更加可解釋的響應，因爲任務解決邏輯（即行動代碼）和 API 的結果都是可理解的。

TaskMatrix.AI 能完成什麽任務？

TaskMatrix.AI 能完成的任務非常廣泛，小到文字、圖像信息的基本信息處理，大到控制機器人平台、接入物聯網（IoT）等通用平台任務，TaskMatrix 都能勝任。

圖像處理任務

TaskMatrix.AI 可以執行圖像處理任務，并且能夠接受語言和圖像作爲輸入。下圖展示了 TaskMatrix.AI 的相關版本 Visual ChatGPT，它不僅能夠理解人類意圖，還能處理語言和圖像輸入，以完成包括圖像生成、問題回答和編輯在内的複雜視覺任務。

下圖展示了使用多個 API 協作生成高分辨率圖像的示例。在該例中，解決方案框架由 3 個 API 組成：圖像問答、圖像标題以及圖像對象替換。

左側框線部分展示了解決方案框架如何協助将圖像擴展至 2048 × 4096 分辨率。通過叠代執行框架中的預定義步驟，TaskMatrix.AI 可以生成任何所需尺寸的高分辨率圖像。

辦公自動化

TaskMatrix.AI 能夠通過語音指令理解并自動執行計算機操作系統、專業軟件以及智能手機應用的操作。利用 TaskMatrix.AI，可以快速上手複雜軟件。

此外，它還能幫助用戶在不進行搜索的情況下直接訪問所需功能。以下是一個 PowerPoint 自動化的實例，TaskMatrix.AI 能夠根據用戶指定的主題自動生成幻燈片，智能調整内容布局，插入和優化圖像，并應用相應的設計主題，從而顯著提升工作效率。

機器人和物聯網設備控制

TaskMatrix.AI 可以連接機器人和物聯網設備，實現對體力勞動和智能家居操作的自動化管理。通過集成先進的機器人技術，TaskMatrix.AI 能夠執行一系列任務，如物體的拾取與放置以及對家庭物聯網設備的智能控制。

此外，該平台還整合了多種流行的互聯網服務，包括但不限于日曆 API、天氣 API 和新聞 API，提供了更加豐富和便捷的用戶體驗。

TaskMatrix.AI 的挑戰

盡管 TaskMatrix.AI 已經在各種任務中證明了其強大的功能和通用性，但仍面臨以下幾個挑戰：

多模态會話基礎大模型：TaskMatrix.AI 需要一個能夠處理多種輸入（文本、圖像、視頻、音頻和代碼）的強大基礎大模型。這個模型需要能夠從上下文中學習，使用常識進行推理和計劃，并生成高質量的代碼來完成任務。此外由于 TaskMatrix.AI 需要處理更多樣化的輸入模式，這要求确定一個最小模式集來訓練 MCFM。

API 平台：構建和維護一個包含數百萬 API 的平台需要解決文檔生成、API 質量保證和 API 創建建議等挑戰。API 文檔的清晰性和 API 的質量對于 TaskMatrix.AI 的成功至關重要。此外，平台還需要根據用戶反饋指導 API 開發者創建新的 API 來解決特定任務。

API 調用：在處理大量 API 時，TaskMatrix.AI 需要能夠合理選擇和推薦相關的 API 來完成任務。此外還涉及到在線規劃，即在無法立即生成解決方案時，與用戶交互并嘗試不同的解決方案。

安全和隐私：在 API 能夠訪問物理和數字世界時，确保模型忠實于用戶指令并保持數據私密性是至關重要的。這要求在執行操作前驗證模型的行爲，并确保數據傳輸的安全性和數據訪問的授權。

個性化：TaskMatrix.AI 需要個性化策略來幫助開發者構建定制的 AI 界面，并爲用戶提供私人助理。這包括降低擴展成本和使用少量示例來學習用戶的偏好，以便生成符合用戶需求的解決方案。

關于 Intelligent Computing

Intelligent Computing 由之江實驗室和美國科學促進會（AAAS）共同創辦，是《科學》合作期刊框架中智能計算領域的第一本開放獲取（Open Access）國際期刊。期刊以「面向智能的計算、智能驅動的計算」以及「智能、數據與計算驅動的科學發現」爲主題，主要刊載原創研究論文、綜述論文和觀點論文。

投稿 : www.editorialmanager.com/icomputing

官網 : spj.science.org/journal/icomputing

郵箱 : [email protected]

* 本文系量子位獲授權刊載，觀點僅爲作者所有。

— 完 —

量子位 QbitAI

վ ' ᴗ ' ի 追蹤 AI 技術和産品新動态

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~