GPT-4V 學會自動操縱電腦,這一天終于還是到來了。
隻需要給 GPT-4V 接入鼠标和鍵盤,它就能根據浏覽器界面上網:
甚至還能快速摸清楚 " 播放音樂 " 的播放器網站和按鈕,給自己來一段 music:
是不是有點細思極恐了?
這是一個 MIT 本科生小哥整出來的新活,名叫GPT-4V-Act。
隻需要幾個簡單的工具,GPT-4V 就能學會控制你的鍵盤和鼠标,用浏覽器上網發帖、買東西甚至是玩遊戲。
要是用到的工具出 bug 了,GPT-4V 甚至還能意識到、并試圖解決它。
來看看這是怎麽做到的。
教 GPT-4V" 自動上網 "
GPT-4V-Act,本質上是一個基于 Web 浏覽器的AI 多模态助手(Chromium Copilot)。
它可以像人類一樣用鼠标、鍵盤和屏幕 " 查看 " 網頁界面,并通過網頁中的交互按鍵進行下一步操作。
要實現這種效果,除了 GPT-4V 以外,還用到了三個工具。
一個是UI 界面,可以讓 GPT-4V" 看見 " 網頁截圖,也能讓用戶與 GPT-4V 發生交互。
這樣,GPT-4V 就能将每一步運行思路都通過對話框的形式反映出來,用戶來決定是否要繼續讓它操作。
另一個是Set-of-Mark Prompting(SoM)工具,讓 GPT-4V 學會交互的一款工具。
這個工具由微軟發明,目的是更好地對 GPT-4V 進行提示詞工程。
相比讓 GPT-4V 直接 " 看圖說話 ",這個工具可以将圖片關鍵細節拆分成不同的部分,并進行編号,讓 GPT-4V 有的放矢:
對于網頁端也是如此,Set-of-Mark Prompting 用類似的方式讓 GPT-4V 知道從網頁浏覽器的哪個部分找答案,并進行交互。
最後,還需要用到一個自動标注器(JS DOM auto-labeler),可以将網頁端所有能交互的按鍵标注出來,讓 GPT-4V 決定要按哪個。
一套流程下來, GPT-4V 不僅能準确判斷圖片上的哪些内容符合需求,還能準确找到交互按鍵,并學會 " 自動上網 "。
這是個大項目,目前還隻實現了部分功能,包括點擊、打字交互、自動标注等。
接下來,還有其他的一些功能要實現,例如試試 AI 打标器(目前網頁端的交互還是通過通過 JS 接口得知哪裏能交互,不是 AI 識别的)、以及提示用戶輸入詳細信息等。
此外,作者也提到,現階段 GPT-4V-Act 用法上還有一些需要注意的地方。
例如,GPT-4V-Act 可能會被網頁打開後鋪天蓋地的彈窗小廣告給 " 整懵了 ",然後出現交互 bug。
又例如,目前這種玩法可能會違反 OpenAI 的産品使用規定:
除非 API 允許,否則不得使用任何自動化或編程的方法從服務中提取數據并輸出,包括抓取、網絡收集或網絡數據提取。
所以用的時候也要低調一點(doge)
微軟 SoM 作者也來圍觀
這個項目在網上發出後,吸引了不少人的圍觀。
像是小哥用到的微軟 Set-of-Mark Prompting 工具的作者,就發現了這個項目:
出色的工作!
還有網友提到,甚至可以用來讓 AI 自己讀取驗證碼。
這個在 SoM 項目中提到過,GPT-4V 是能成功解讀驗證碼的(所以以後可能還真不知道是人還是機器在上網)。
與此同時,也有網友已經在想象桌面流自動化(desktop automation)的操作了。
對此作者回應稱:
AI 自動标注器應該能實現這個,我也确實在計劃制作一個更通用的 Copilot。
不過目前 GPT-4V 還是要收費的,有沒有其他的實現方法?
作者也表示,目前還沒有,但确實可能會嘗試 Fuyu-8B 或者 LLaVAR 這樣的開源模型。
免費的自動化桌面流 AI 助手,可以期待一波了。
參考鏈接:
[ 1 ] https://github.com/ddupont808/GPT-4V-Act
[ 2 ] https://www.reddit.com/r/MachineLearning/comments/17cy0j7/d_p_web_browsing_uibased_ai_agent_gpt4vact/