下一代 Windows 操作系統提前曝光了??
微軟首個爲 Windows 而設的智能體(Agent) 亮相:
基于 GPT-4V,一句話就可以在多個應用中無縫切換,完成複雜任務。整個過程無需人爲幹預,其執行成功率和效率是 GPT-4 的兩倍,GPT-3.5 的四倍。
比如,删除 PPT 演示文稿上的所有備注。
幾個簡單步驟就可完成。
還有像利用多個來源文本,比如 word 文檔、圖像文本内容,撰寫電子郵件。
網友表示:這才是 Windows 級别應有的創新能力
第一個 Windows Agent 來了
這樣一個智能體叫做 UFO,全名"UI-Focused",是一個專爲 Windows OS(操作系統)交互設計、面向用戶界面(UI)的智能體框架,可以在單個或者多個應用程序中操作,由 MSRA、微軟 AI 與應用研究團隊等共同打造。
用戶就可以通過自然語言指令,來操作 App 的用戶界面。
據介紹,UFO 是第一個專爲 Windows OS 環境中的任務完成量身定制的 UI Agent。
就拿删除 PPT 上的所有注釋爲例。傳統方式需要一頁一頁手動删除注釋。如果 PPT 巨長無比,這個過程就會又久又無聊,讓人瞬間暴躁。
但 UFO 得到指令後,簡化了整個過程。
它先是提議用 " 删除所有演示筆記 " 功能,這個功能因爲按鈕位置藏得很深,經常被用戶忽視。
而後,UFO 導航到 "File" 選項,對後台視圖進行訪問;然後,再平滑地切換到 "info" 菜單,單擊 " 檢查問題 " 按鈕,并選擇 " 檢查文檔 ",開始檢查文檔中所有包含的注釋。
緊接着,UFO 識别到菜單地步的 " 删除所有演示筆記 ",向下滾動定位到其位置,啓動單擊功能。
考慮到誤删的可能性,UFO 這裏有一道保護功能,需要用戶再次确定是否真的要删除所有注釋。
用戶一旦确認,所有筆記就 "" 的一下都沒有了~
如 PowerPoint 這般,文章中對其它幾個場景進行了圖文并茂的展示。
比如讀一篇 PDF:
設計 PPT 格式:
下載 Docker 拓展:
發條推文:
搜索總結:
讀篇 paper:
以及怎麽利用 UFO 在 Word 文檔裏提取文本、描述圖像、撰寫然後發送電子郵件等。
研究團隊在 9 個常用的 Windows 應用程序上對 UFO 進行了測試,包括 Outlook、Photos、PPT、Word 等,涵蓋了 Windows 用戶的高頻使用場景,能夠測試工作、交流、編碼、閱讀、網頁浏覽等目的。
對于每個應用程序,團隊設計了 5 個不同的請求,共 45 個;另外還設計了 5 個設計跨多個交互應用程序的請求。
也就是說,共産生了 50 個請求,每個應用程序至少有一個請求鏈接到另一個後續請求,提供全面評估 UFO 的互動模式。
在評估指标方面,則從成功度、步驟、完成率和保障率這幾個角度來評估 UFO。
爲了全面評估 UFO 的性能,團隊開發了名爲 WindowsBench 的測試基準。
考慮到沒有現成的 Windows Agent,團隊選擇 GPT-3.5 和 GPT-4 作爲基座模型,并且指示它們提供一步一步的指導來完成用戶請求。
值得注意的是,UFO 在 WindowsBench 上成功率達到了 86%,成倍超過了 GPT-4 ——因此 UFO 可以被定位爲一個高效的 Agent。
而 UFO 的完成率也是最好的,這表明它有能力采取更精确的動作;此外,UFO 完成任務的步驟也是最少的,安全度也是最高的。
最後,9 個場景從 4 個角度在 WindowsBench 的詳細得分如下:
三個模塊組成
既然如此,這樣一個操作系統級别的 Agent,究竟是如何實現的呢?
首先,它理解用戶的自然語言要求,然後将其分解爲一系列子任務。然後觀察用戶界面,并對其控制元素進行操作,以實現總體目标。
既然如此,又是如何實現的呢?
架構上看,UFO 是個雙 Agent 框架,主要有三個模塊:
應用智能體(AppAgent),選擇一個應用程序滿足用戶請求。
行動智能體(ActAgent),負責在所選應用中反複執行任務。
交互控制,無需人工幹預,全自動執行。
在收到用戶請求後,AppAgent 會對需求進行分析。除此之外,還有這些信息作爲輸入:桌面截圖、App 信息、記憶以及示例。
其中,UFO 爲 AppAgent 提供了完整的桌面截圖和可用應用程序列表以供參考。
然後從當前激活的應用程序中選擇一個合适的應用程序,并制定一個全局實現計劃,将其傳遞給 ActAgent。
一旦找到合适的應用程序,App 就會出現在桌面上。随後 ActAgent 啓動操作。
在每個操作選擇之前,UFO 都會捕獲當前應用程序用戶界面窗口的屏幕截圖,并标注所有可用控件。此外,UFO 還記錄了每個控件的相關信息,供 ActAgent 觀察。
ActAgent 的任務是選擇要操作的控件,然後通過控件交互模塊選擇要在所選控件上執行的特定操作。
這一決定是基于 ActAgent 的觀察結果、先前計劃和操作記憶做出的。
這個遞歸過程一直持續到用戶請求在所選應用程序中成功完成爲止。至此,用戶請求的一個階段結束。
如果需要跨越多個應用程序,那麽在 ActAgent 完成當前任務之後,ActAgent 将把任務委托給 AppAgent,以便切換到不同的應用程序,從而啓動請求的第二階段。
用戶可以選擇提出新的請求,促使 UFO 通過重複上述過程來處理新任務。
研究團隊依據日常鼠标操作,還開發了自定義操作,比如單擊、選擇文本、滾動等,以此來完成對于控件的操作。
主要有這些控制類型。
微軟全球資深副總裁、MSRA 副院長領銜
最後介紹一下 UFO 的研究團隊,其中大多數都爲華人。
通訊作者Chaoyun Zhang,是微軟 DKI(Data、Knowledge、Intelligence,數據 / 知識 / 情報)* 小組的高級研究員。
他于 2020 年,在愛丁堡大學獲得碩士和博士學位,研究興趣包括時間序列建模、時空數據挖掘、因果推理以及雲服務和 AIOps 的可解釋機器學習。
Chaoyun Zhang 還是華中科技大學校友,出國前在華中科技大學電子信息與通信學院取得學士學位。
作者Liqun Li,現爲微軟 DKI 組首席研究員。
他先畢業于清華大學計算機科學與技術系,取得學士學位;而後又在 2012 年獲得中國科學院軟件研究所博士學位。期間,Liqun Li 曾作爲訪問學者前往密歇根州立大學。
作者Saravan Rajmohan,Miceosoft 365 的 AI 及應用研究的合作夥伴總監。
他領導應用研究團隊與 Microsoft 的各個研究小組進行深入協作,将算法研究與 AI/ML 技術和硬件創新相結合
作者張冬梅,MSRA(微軟亞洲研究院)常務副院長,微軟傑出首席科學家。
她從 2004 年起加入 MSRA,從事和領導 DKI 領域的研究工作,近幾年,團隊将研究擴大到商業智能領域。
作者張祺,微軟全球資深副總裁。
此前,張祺曾任微軟(亞洲)互聯網工程院常務副院長,兼任微軟移動聯新互聯網服務有限公司董事長,負責微軟互聯網業務及人工智能平台在亞洲的團隊。
同時,他也是微軟中國首位 " 全球傑出工程師 "。
最後,簡單介紹一下多位作者的工作單位:MSRA 的 DKI 組。
DKI 是 Data、Knowledge、Intelligence 的簡寫。
該小組緻力于 AI、數據分析、數據交互、數據可視化的研究,探索全新的數據分析、展示、交互技術,讓數據和數據中的發現故事被高效地理解、廣泛地傳播。
團隊與微軟産品如 Excel,PowerPoint 等深度合作,常年在各個領域的頂會和期刊上發表論文。
參考鏈接:
[ 1 ] https://github.com/microsoft/UFO
[ 2 ] https://arxiv.org/abs/2402.07939
[ 3 ] https://twitter.com/_akhaliq/status/1757625641724215585
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~