由微軟開發的專注于 Windows 操作系統交互的 UI 代理
随着 AI 技術的進步,那邊在 OpenAI 大殺四方、用 Sora 徹底革了視頻的命之際,這邊的微軟悄然對傳統用戶界面 " 出招 ",最新帶來一款用于構建用戶界面(UI)交互智能體的 Agent 框架—— UFO,能夠快速理解和執行用戶的自然語言請求,它的發布也向外界展示了未來與 Windows 交互是多麽的容易。
UFO 可以在 Windows 内自主回答用戶查詢,也能夠在單個或者跨多個 App 中無縫導航和操作來滿足 Windows 操作系統上用戶請求。它可以更加智能地理解用戶的意圖,不用人工幹預,自動執行相應的操作。
簡單來看,當你想要從一份 Word 文檔中提取文本、對照片應用程序中的圖像進行觀察、以及總結 PowerPoint 中的内容,然後利用所有這些信息撰寫一封深度的電子郵件内容并完全自主發送時,你隻需要借助一個 UFO 框架就可以完成。
正所謂,以前需要大量手動工作的跨應用程序工作流程,現在可以直接簡化爲針對 UFO 的簡單自然語言指令。基于此,很多人也将 UFO 視爲是下一代 Windows 系統的核心。
微軟推出首個專爲 Windows 定制的 Agent —— UFO
值得注意的是,這裏的 UFO 并不是指 " 不明飛行物 ",它的全稱爲 UI-Focused Agent,是一種以用戶界面(UI)爲中心的代理,主要基于 OpenAI 的 GPT-4V 圖像識别模型開發而成,爲 Windows 操作系統上的應用程序量身定制。
UFO 采用雙代理框架,對圖形用戶界面(GUI)和 Windows 應用程序的控制信息進行細緻的觀察和分析,這使得代理能夠在單個應用程序内和跨應用程序之間無縫導航和操作,以滿足用戶的請求。
利用 AI 技術,UFO 可以讓用戶 " 說說話 " ——用自然語言命令就能完成繁瑣的 Windows 任務。根據研究團隊透露,UFO 是第一個專爲 Windows 操作系統環境下完成任務而定制的用戶界面代理。在他們看來,這一開創性的 Agent 将改變人們與 Windows 設備的交互方式。
目前 UFO 面向所有用戶開源,代碼地址詳見:https://github.com/microsoft/UFO。
與此同時,微軟研究團隊還針對 UFO 項目發布了一份 30 頁的技術報告:https://arxiv.org/pdf/2402.07939.pdf。
話不多說,讓我們先來看看 UFO 到底能用來幹些什麽?
一、一條指令即可删除 PowerPoint 演示文稿上的所有注釋
我們在日常工作中制作 PPT 時,通常會遇到要準備兩個不同版本的情況,一版要添加備注,方便自己捋清楚 PPT 内容邏輯;另一版往往更加簡潔明了,方便對外。
過去,在用戶想要一個沒有附帶任何說明的幹淨版本的幻燈片時,傳統的方法可能是手動一頁一頁地去删除備注内容。當然如果 PPT 頁數少還要好操作一些,一旦遇到頁數超多的 PPT 内容,這無疑是一個繁瑣又耗時的工作。
UFO 的到來,可以幫我們有效減少工作量,你隻需要對它發出以下請求—— " 幫助我快速删除測試幻燈片中的所有備注。"
它就可以自動提供解決方案給你。
在實際測試過程中,UFO 直接建議使用 " 删除所有演示文稿筆記 " 功能,這是一個經常被 PowerPoint 用戶忽視的功能,由于這個功能按鈕隐藏的位置較深,沒有什麽辦公軟件使用經驗的人或許根本找不到。
當 UFO 提供建議之後,它會直接自動導航到 " 文件 " 選項,并提供對後台視圖的訪問。随後,它順利地過渡到 " 信息 " 菜單,單擊 " 檢查問題 " 按鈕,并選擇 " 檢查文檔 ",開始檢查文檔中的注釋。
鑒于可能存在誤删的情況,UFO 還提供了一層保護功能,即征得用戶同意之後才會删除所有注釋内容。
二、總結會議紀要,并發送郵件
當向 UFO 發出請求:" 我叫紮克。請閱讀會議記錄以确定所有行動項目,并理解 LLM-training · png 中包含 LLM 培訓工作流程,最終撰寫一封包含這些内容的新郵件。通過電子郵件地址,發送完整的電子郵件給我們的領導 Hidan ,請他來審查 "。
作爲回應,UFO 爲這項任務制定了一個動态計劃:
它在 Word 中激活所需的文檔文件,利用 GetTextAPI 從主窗口中提取文本;
緊接着,UFO 切換到照片中的 LLM-training · png 圖像文件,觀察并生成一個詳細的描述;
收集所有必要的信息後,UFO 打開 outlook 應用程序,訪問 " 新建電子郵件 " 按鈕啓動 " 編輯 " 功能,然後自主輸入電子郵件收件人、起草主題和撰寫電子郵件正文,包括所有必需的信息。
在發送之前,由于動作的敏感性,安全保護功能會提示用戶确認。一旦确認,電子郵件發送。
整個過程如視頻所示:
三、聯網查找以及下載相關内容
它還能直接幫助閱讀 PPT 内容,幫助用戶在網上搜索到并打開論文,以及對論文進行總結和下載。
四、一鍵換 PPT 模闆
五、直接在 VS Code 中下載 Docker 擴展
UFO 是如何實現調動多 App 自動化工作的?
毋庸置疑,UFO 可以接受自然語言指令,具有理解用戶用自然語言表達的請求的能力,将其分解成一系列逐步的子任務。然後,通過分析屏幕截圖和控件信息自動完成 Windows 下各個 App 的操作和請求,極大地提升了工作效率。
那麽,它究竟是如何做到的?
對此,在論文中,研究人員解釋道,UFO 結合了兩個 Agent,它們決定選擇哪些應用程序和控件來處理用戶請求,其中:
應用程序選擇代理 ( AppAgent ) 的任務是選擇一個正确的應用程序來滿足用戶的請求。當一個請求跨越多個應用程序,并且任務已在前一個應用程序中部分完成時,此代理還可以切換到另一個應用程序。
動作選擇代理 ( ActAgent ) ,其負責在所選應用程序上反複執行動作,直到在特定應用程序内成功地結束任務。
這兩個 Agent 利用 GPT-Vision 的多模态功能來理解應用程序 UI 并滿足用戶的請求。他們利用一個控制交互模塊來确定他們的行動,從而對系統産生切實的影響。
詳細來看,UFO 爲 AppAgent 提供了完整的桌面截圖和一系列可供參考的應用程序,方便了 AppAgent 的決策過程。随後,AppAgent 選擇一個适當的應用程序,并制定一個全面的計劃來完成請求。然後将該計劃轉交給 ActAgent。
一旦确定了一個合适的應用程序,它就會在桌面上顯示。然後,ActAgent 啓動操作來完成用戶請求。在每個動作選擇步驟之前,UFO 捕獲當前應用程序的 UI 窗口的屏幕截圖,所有可用的控件都被标注。
此外,UFO 記錄每個控件的信息,以供 ActAgent 觀察。ActAgent 的任務是選擇要操作的控件,然後通過控件交互模塊選擇要在所選控件上執行的特定操作。這個決定是基于 ActAgent 的觀察,它的事先計劃,和它的操作記憶。
在執行之後,UFO 爲未來的步驟構建一個本地計劃,并進行到下一個行動選擇步驟。這個遞歸過程會一直持續到用戶請求在選定的應用程序中成功完成爲止。這就結束了用戶請求的一個階段。
在用戶請求跨越多個應用程序的場景中,ActAgent 會将任務委托給 AppAgent,以便在 ActAgent 完成當前應用程序上的任務後切換到另一個應用程序,從而啓動請求的第二階段。
這個叠代過程将持續到用戶請求的所有方面完全完成。用戶可以選擇交互式地引入新的請求,提示 UFO 通過重複上述過程來處理新的請求。在成功完成所有用戶請求後,UFO 結束其操作。
UFO 完成了 86% 的任務,明顯高于 GPT-3.5 和 GPT-4
爲了評估 UFO 的性能,由于現有的 Windows Agent 存在局限性,該研究團隊選擇了 GPT-3.5 和 GPT-4 作爲基線模型,同時因爲這些模型缺乏直接與應用程序交互的能力,所以由研究人員指示它們并提供分步說明來完成用戶請求。然後一個人類作爲他們的代理人來執行這些操作。
另外,該研究團隊使用 WindowsBench 數據集對各種框架進行了全面的定量比較:
根據上圖不難看出,UFO 在基準測試中成功率高達 86%,是 GPT-4 的兩倍多。另外,根據研究顯示,UFO 完成任務的步驟最少,且從安全的角度來看,UFO 達到最高的保障率爲 85.7%,這證明它可以準确地分類敏感請求,确認其可以作爲一個安全的代理。
與此同時,微軟研究團隊還對框架進行了 50 項任務的測試,涉及 9 個廣泛使用的 Windows 應用程序,包括 Outlook、Photos、PowerPoint、Word、AdobeAcrobat、文件資源管理器、Visual Studio Code、微信和 Edge 浏覽器。
最終測試結果如下:
局限性
不過,研究人員也在論文中承認目前的 UFO 還有很大的局限性。
比如,UFO 隻能執行 Python 軟件包 pywinauto 和 Windows UI 自動化所支持的控件和操作。他們還注意到當 UFO 遇到不常見的應用程序 GUI 時,會出 Bug。
當然,微軟計劃通過支持其他後端和集成專用圖形用戶界面模型進行視覺識别來改進 UFO。此外,連接到在線搜索引擎作爲外部知識庫也可以提高 Agent 适應未知 GUI 的能力。
整體來看,這款 Windows Agent 還不是很靈活,它們也需要支付額外費用。盡管你可以通過 GitHub(https://github.com/microsoft/UFO)在計算機上免費安裝 UFO,但它需要 OpenAI 的 API 密鑰才能使用 GPT-4V 進行推理,每次請求都會産生費用。它也隻能通過命令行訪問。
對此,外媒 The Decoder 也評價道," 要讓 UFO 這樣的概念發揮作用,就需要将其更緊密地集成到操作系統中。理想的情況是,它們在本地運行,以較低的成本提供較快的性能。這也有可能消除對隐私的擔憂。
盡管如此,UFO 仍是從根本上改變計算機操作方式的重要一步。與強大的語音識别模式(如 Whisper)相結合,它可以消除對傳統界面的需求,盡管這似乎還很遙遠。"
UFO 背後的團隊
最後同樣值得關注的是,這款由微軟官方團隊推出的 Agent,不少華人工程師參與其中:
Chaoyun Zhang,是微軟亞洲研究院 DKI(Data、Knowledge、Intelligence)小組的高級研究員,研究興趣包括時間序列建模、時空數據挖掘、因果推理以及雲服務和 AIOps 的可解釋機器學習。
Liqun Li,2012 年于中國科學院軟件研究所獲博士學位,2006 年于清華大學計算機科學與技術系獲學士學位,現任微軟亞洲研究院 DKI 組首席研究員,目前專注于構建基于 LLM 的自主代理,用于數據分析和工作流程自動化。
Shilin He,是微軟亞洲研究院 DKI 小組的高級研究員。于 2020 年在香港中文大學獲得博士學位。在此之前,于 2016 年獲得華南理工大學菁英計劃學士學位。目前從事雲智能 /AIOps 方面的研究,旨在将 ML/DL 技術整合到雲系統的管理和維護中。
Xu Zhang,微軟高級研究員。
Bo Qiao,微軟亞洲研究院 DKI 小組的研究 SDE。
Si Qin,現任微軟亞洲研究院 DKI 的首席研究員和研究經理。
Minghua Ma,微軟亞洲研究院 DKI 小組研究員。他的研究興趣包括雲智能 /AIOps。在加入微軟研究院之前,他在清華大學計算機科學與技術系獲得博士學位。
Yu Kang,是微軟亞洲研究院 DKI(數據、知識、智能)小組的首席研究員和研究經理。他還是複旦大學計算機學院兼職教授。此外,他還是香港中文大學的名譽研究員。專注于智能雲服務的數據驅動技術。
Qingwei Lin,DKI 研究領域的合夥人研究經理。在雲智能 /AIOps 領域,他在 AAAI、IJCAI、SigKDD、WWW、ICSE、FSE、ASE、OSDI、NSDI、USENIX ATC 等頂級會議上發表約 100 篇論文,并獲得 2017 年最佳研究論文獎 ESEC/FSE 的 ISSRE 和 SIGSOFT 傑出論文獎。
Saravan Rajmohan,M365 AI 和應用研究合作夥伴總監。領導應用研究團隊與各個 Microsoft 研究小組進行深度協作和合作,推動系統創新以及隐私保護機器學習創新。
Dongmei Zhang,是微軟亞洲研究院傑出科學家、副院長,領導數據、知識和智能領域的研究,研究方向包括數據智能、知識計算、信息可視化和軟件工程。
Qi Zhang ,微軟全球資深副總裁、微軟亞太研發集團首席技術官,微軟(亞洲)互聯網工程院 常務副院長。于 2002 年加入微軟,擁有超過 20 年機器學習、大數據、人工智能算法、平台、商業化的從業經曆,在産品研發、戰略決策、組織構建、人才培養方面積累了豐富的經驗。