GPT-4V學會用鍵鼠上網，人類眼睜睜看着它發帖玩遊戲

GPT-4V 學會自動操縱電腦，這一天終于還是到來了。

隻需要給 GPT-4V 接入鼠标和鍵盤，它就能根據浏覽器界面上網：

甚至還能快速摸清楚 " 播放音樂 " 的播放器網站和按鈕，給自己來一段 music：

是不是有點細思極恐了？

這是一個 MIT 本科生小哥整出來的新活，名叫GPT-4V-Act。

隻需要幾個簡單的工具，GPT-4V 就能學會控制你的鍵盤和鼠标，用浏覽器上網發帖、買東西甚至是玩遊戲。

要是用到的工具出 bug 了，GPT-4V 甚至還能意識到、并試圖解決它。

來看看這是怎麽做到的。

教 GPT-4V" 自動上網 "

GPT-4V-Act，本質上是一個基于 Web 浏覽器的AI 多模态助手（Chromium Copilot）。

它可以像人類一樣用鼠标、鍵盤和屏幕 " 查看 " 網頁界面，并通過網頁中的交互按鍵進行下一步操作。

要實現這種效果，除了 GPT-4V 以外，還用到了三個工具。

一個是UI 界面，可以讓 GPT-4V" 看見 " 網頁截圖，也能讓用戶與 GPT-4V 發生交互。

這樣，GPT-4V 就能将每一步運行思路都通過對話框的形式反映出來，用戶來決定是否要繼續讓它操作。

另一個是Set-of-Mark Prompting（SoM）工具，讓 GPT-4V 學會交互的一款工具。

這個工具由微軟發明，目的是更好地對 GPT-4V 進行提示詞工程。

相比讓 GPT-4V 直接 " 看圖說話 "，這個工具可以将圖片關鍵細節拆分成不同的部分，并進行編号，讓 GPT-4V 有的放矢：

對于網頁端也是如此，Set-of-Mark Prompting 用類似的方式讓 GPT-4V 知道從網頁浏覽器的哪個部分找答案，并進行交互。

最後，還需要用到一個自動标注器（JS DOM auto-labeler），可以将網頁端所有能交互的按鍵标注出來，讓 GPT-4V 決定要按哪個。

一套流程下來， GPT-4V 不僅能準确判斷圖片上的哪些内容符合需求，還能準确找到交互按鍵，并學會 " 自動上網 "。

這是個大項目，目前還隻實現了部分功能，包括點擊、打字交互、自動标注等。

接下來，還有其他的一些功能要實現，例如試試 AI 打标器（目前網頁端的交互還是通過通過 JS 接口得知哪裏能交互，不是 AI 識别的）、以及提示用戶輸入詳細信息等。

此外，作者也提到，現階段 GPT-4V-Act 用法上還有一些需要注意的地方。

例如，GPT-4V-Act 可能會被網頁打開後鋪天蓋地的彈窗小廣告給 " 整懵了 "，然後出現交互 bug。

又例如，目前這種玩法可能會違反 OpenAI 的産品使用規定：

除非 API 允許，否則不得使用任何自動化或編程的方法從服務中提取數據并輸出，包括抓取、網絡收集或網絡數據提取。

所以用的時候也要低調一點（doge）

微軟 SoM 作者也來圍觀

這個項目在網上發出後，吸引了不少人的圍觀。

像是小哥用到的微軟 Set-of-Mark Prompting 工具的作者，就發現了這個項目：

出色的工作！

還有網友提到，甚至可以用來讓 AI 自己讀取驗證碼。

這個在 SoM 項目中提到過，GPT-4V 是能成功解讀驗證碼的（所以以後可能還真不知道是人還是機器在上網）。

與此同時，也有網友已經在想象桌面流自動化（desktop automation）的操作了。

對此作者回應稱：

AI 自動标注器應該能實現這個，我也确實在計劃制作一個更通用的 Copilot。

不過目前 GPT-4V 還是要收費的，有沒有其他的實現方法？

作者也表示，目前還沒有，但确實可能會嘗試 Fuyu-8B 或者 LLaVAR 這樣的開源模型。

免費的自動化桌面流 AI 助手，可以期待一波了。

參考鏈接：

[ 1 ] https://github.com/ddupont808/GPT-4V-Act

[ 2 ] https://www.reddit.com/r/MachineLearning/comments/17cy0j7/d_p_web_browsing_uibased_ai_agent_gpt4vact/