GPT-4V,就是 Siri 終結的開始。
一項研究發現:
無需任何訓練,GPT-4V 就能直接像人類一樣與智能手機進行交互,完成各種指定命令。
比如讓它在 50-100 美元的預算内購買一個打奶泡的工具。
它就能像下面這樣一步一步地完成選擇購物程序(亞馬遜)并打開、點擊搜索欄輸入 " 奶泡器 "、找到篩選功能選擇預算區間、點擊商品并完成下單這一系列共計9 個操作。
根據測試,GPT-4V 在 iPhone 上完成類似任務的成功率可達 75%。
因此,有人感歎有了它,Siri 漸漸就沒有用武之地了(比 Siri 更懂 iPhone)
誰知有人直接擺擺手:
Siri 壓根兒一開始就沒這麽強好嘛。(狗頭)
還有人看完直呼:
智能語音交互時代已經開始。我們的手機可能要變成一個純粹的顯示設備了。
真的這麽?
GPT-4V 零樣本操作 iPhone
這項研究來自加州大學聖地亞哥分校、微軟等機構。
它本身是開發了一個 MM-Navigator,也就是一種基于 GPT-4V 的 agent,用于開展智能手機用戶界面的導航任務。
實驗設置
在每一個時間步驟,MM-Navigator 都會得到一個屏幕截圖。
作爲一個多模态模型,GPT-4V 接受圖像和文本作爲輸入并産生文本輸出。
在這裏,就是一步步讀屏幕截圖信息,輸出要操作的步驟。
現在的問題就是:
如何讓模型合理地計算出給定屏幕上應該點擊的準确位置坐标(GPT-4V 隻能給出大概位置)。
作者給出的解決辦法非常簡單,通過 OCR 工具和 IconNet 檢測每一個給定屏幕上的UI 元素,并标記不同的數字。
這樣一來,GPT-4V 就隻需面對一張截圖指出要點什麽數字進行操作就好。
兩項能力測試
測試率先在 iPhone 上展開。
要想成功操縱手機涉及到 GPT-4V 不同類型的屏幕理解能力:
一個是語義推理,包括理解屏幕輸入和闡明完成給定指令所需的動作。
一個是指出每一個動作應執行的精确位置(即該點哪個數字)的能力。
因此,作者開發了兩組測試分别進行區分。
1、預期動作描述
隻輸出應該幹啥,不輸出具體坐标。
在這個任務中,GPT-4V 理解指令并給出操作步驟的準确率爲 90.9%。
比如在下面這個 Safari 浏覽器的截圖中,用戶想要打開一個新标簽頁,但左下角的 + 号是灰色的,應該怎麽辦?
GPT-4V 回答:
通常這樣操作是 ok 的,但從截圖來看,您似乎已經達到了 500 個标簽頁的上限,要想再打開新的,需要關閉一些已有選項卡,然後再看看 + 号是否可以點擊。
看圖理解表現得很不錯~更多例子可以翻閱論文。
2、本地化動作執行
當讓 GPT-4V 把這些 " 紙上談兵 " 都化爲具體行動時(即第二個測試任務),它的正确率有所下降,來到74.5%。
還是上面的例子,它可以遵循自己給出的指令,給出正确的操作數字,比如點擊數字 9 關閉一個标簽頁。
但如下圖所示,讓它找一個可以識别建築物的應用程序時,它可以準确指出用 ChatGPT,但是卻給出了錯誤數字 "15"(應該是 "5")。
還有的錯誤是因爲屏幕截圖本身就沒有标出對應位置。
比如讓它從下面的圖中開啓隐身模式,直接給了 wifi 處于的 "11" 位置,完全不搭嘎。
此外,除了這種簡單的單步任務,測試也發現 GPT-4V 完全可以不需訓練就勝任 " 買起泡器 " 這樣的複雜指令。
在這個過程中,我們可以看到 GPT-4V 事無巨細地列出每一步該幹什麽,以及對應的數字坐标。
最後,是安卓機上的測試。
整體來看,比其他模型比如 Llama 2、PaLM 2 和 ChatGPT 表現得明顯要好。
在執行安裝、購物等任務中的總體表現最高得分爲 52.96%,這些基線模型最高才 39.6%。
對于整個實驗來說,它最大的意義是證明多模态模型比如 GPT-4V 能夠将能力直接遷移到未見過的場景,展現出進行手機交互的極大潛力。
值得一提的是,網友看完這項研究也提出了兩個點:
一是我們如何定義任務執行的成功與否。
比如我們想讓它買洗手液補充裝,隻想要一袋,它卻加購了六袋算成功嗎?
二是大夥也不能興奮得太早,要想真的商用這項技術,前進空間還很大。
因爲,準确率可達 95% 的 Siri 都還經常被吐槽很差勁呢。
團隊介紹
本研究一共 12 位作者,基本都來自微軟。
共同一作兩位。
分别是加州大學聖地亞哥分校的博士生 An Yan,以及微軟的高級研究員 Zhengyuan Yang,後者本科畢業于中科大,博士畢業于羅切斯特大學。
參考鏈接:
[ 1 ] https://arxiv.org/abs/2311.07562
[ 2 ] https://x.com/emollick/status/1724272391595995329?s=20