2 月 17 日,根據微軟官網,微軟日前發布視覺 Agent 解析框架 OmniParser 最新版本 V2,可将 OpenAI(4o/o1/o3-mini)、DeepSeek(R1)、Qwen(2.5VL)、Anthropic(Sonnet)等大模型,轉化爲 " 計算機使用智能體 "(Computer Use Agent)。相比前代版本,OmniParser V2 在檢測更微小可交互元素時精度更高、推理速度更快。具體而言,V2 通過使用更大規模的交互元素檢測數據集和圖标功能描述數據進行訓練,并通過縮小圖标描述模型的輸入圖像尺寸,推理延遲較前代降低 60%。(界面)