通往 AGI 的路究竟怎麽走,微軟有了新想法——
基于 ChatGPT 這類大模型的強大理解能力,将輸入的任何信号拆解成一個個可完成的任務,交給其他的 AI 和程序完成。
簡單來說,就像是建了一座司令塔,每個大模型都能成爲其中的 " 大腦 " 指揮官,其他專門解決某類任務的模型,則聽它調令——
這樣一來,不限定某個 AI,所有大模型都能使用這套方法。
能解決什麽問題?
人類隻需要提需求,AI 從自動做 PPT、Word 和 Excel 三件套(Office 自動化),到驅動機器人完成各種智能任務,都能搞定。
這個最新的研究名叫TaskMatrix,據微軟表示,它能直接驅動數百萬個用于完成任務的 AI 和 API。
論文還引用了 OpenAI CEO 奧特曼那句 AI 版摩爾定律:
宇宙中的智能數量每 18 個月翻一番。
一起來看看 TaskMatrix 是怎樣工作的。
AI" 司令塔 " 如何工作?
這是 TaskMatrix 的整體工作流程:
從架構圖來看,TaskMatrix 可以被分爲四部分:
多模态對話基礎模型(MCFM):與用戶對話并了解需求,從而生成 API 可執行代碼以完成特定任務
API 平台:提供統一 API 格式,存儲數百萬個不同功能的 API,允許擴展和删除 API
API 選擇器:負責根據 MCFM 生成的内容推薦 API
API 執行器:調用 API 并執行生成代碼,給出結果
簡單來說,MCFM 負責生成解決方案,API 選擇器從 API 平台中選取 API,随後 API 執行器基于 MCFM 生成的代碼調用 API,并解決任務。
其中,爲了統一 API 管理,API 平台又給 API 統一了文檔格式,包含以下五個部分:
API 名稱(提供 API 摘要,避免與其他 API 混淆),參數列表(包含輸入參數和返回值等),API 描述(功能描述),組合指令(如何組合多個 API 完成複雜用戶指令)
例如這是 " 打開本地文件 "API 的文檔格式:
據微軟介紹,搭建 TaskMatrix 的原因,從學術角度來說主要有兩點。
其一,擴大 AI 适用範圍,如通過擴展 API 來提升可完成任務的類型和數量;其二,便于進一步提升 AI可解釋性,通過觀察 AI 分配任務的方式就能理解它的 " 思路 "。
能完成什麽任務了?
目前從已經搭建好的 TaskMatrix 部分來看,它能完成的任務已經非常廣泛。
小到文字、圖像信息的基礎信息處理,大到控制機器人平台、接入物聯網這種通用平台任務,TaskMatrix 都能搞定。
先來看看圖像處理任務。
TaskMatrix 解讀用戶想要完成的任務後,就能通過對話的方式,搞定 PS(把老人背景 P 成白的)、解讀圖像、文生圖、草圖轉真實圖像、摳圖等一系列現實生活中常見的圖像處理操作:
如果說這些都還太常見,基于 TextMatrix 還能搞定真 · 圖像擴展,基于一小角擴展到一整張圖的那種,而不僅僅是采用平鋪的方式。例如輸入一朵花:
輸出一片花田:
再來看看文字處理任務。
以往需要手動改 AI 寫過的方案,如今直接将問題抛給 AI,它就能完成,例如具體修改某個特定的步驟。
(像不像被甲方一點點催改文件的樣子?隻是如今你變成了甲方)
以後生成文章,就是連插圖都配好的那種:
當然,既然是微軟的研究,少不了調用 Office 系列的 API,包括做 PPT 這種活,如今交給 AI 來做就行:
再進一步到通用任務上,之前一直存在瓶頸的機器人和物聯網等平台,如今 TaskMatrix 也給出了解決通用任務的方案。
家裏接入 AI 後,和它對話就能完成你想要的各種瑣碎任務,包括定鬧鍾、查看天氣等:
屬實是解放人類生産力了。
你想好把它用在哪裏了嗎?
論文地址:
https://arxiv.org/abs/2303.16434