雖然現在各種 AI 加持下的 Chatbot、生圖、擴圖應用層出不窮,但總感覺好像并沒有給日常生活帶來什麽變化。
回想當年互聯網技術從網頁到移動端的進化,支付寶取代了現金、滴滴重塑了出行、美團改寫了用餐方式 ... 那麽 AI 技術會帶來什麽樣的變革?
騰訊研究團隊的一篇最新論文帶來了一種可能:一個幫你操作所有 APP 的應用。
隻要告訴這個應用你想做什麽,它就會自動打開相關的手機 App,直接把事兒給你辦了。
比如幫你訂個工作日起床鬧鍾、給領導發個微信消息、上美團點杯奶茶、去拼多多買一箱最便宜的紙巾、讓滴滴叫一輛去機場的車、或者把剛拍的照片 P 好看一下然後直接發到朋友圈,順手配一段傷感的文字。
有了這個 APPAgent 就再也不用去一頁頁找各種 APP 了,未來需要咱們手動點開的可能就這一個 APP。
這是什麽?這不就是個比微信更強大的超級流量入口嘛!
01
具體如何實現這一操作的,APPAgent 分爲幾個步驟。
首先是如何保證能夠 " 調用 " 所有應用,比如說 Siri 能夠訪問 " 鬧鍾 " 應用,就是從系統上植入了訪問接口,而市面上的 APP 幾乎無窮無盡,不可能每一個開發者都給 Siri 搞一個接頭暗号。
AppAgent 第一個厲害之處就來了,它不需要開發者做任何改動,可以直接模仿人類玩手機的方式,通過圖形界面來操作App。
也就是說,它把人類使用 APP 的過程拆解成了幾個具體動作,比如滑動、點擊、長按、輸入等。
也就是說它在 AI 的加持下,自行學習人類使用 APP 的過程,從而達到模拟的效果。
這意味着無論市面上出現了什麽新的 App,隻要給 AppAgent 一點時間自己摸索一下,它就能自己熟練使用了。
在這個過程中,最大的問題是 AI 如何識别這千千萬萬種不同的 APP、不同的頁面按鈕分别是做什麽的。
AppAgent 要玩手機,首先要看得見手機屏幕。傳統的方式是把常見的 UI 界面截圖下來,人工打上标記,比如這個是輸入框,那個是返回按鈕,黃色袋鼠是美團,企鵝是 QQ 之類的。
然後通過這些數據訓練出來一個能識别常見 UI 元素的視覺模型。
這個問題 GPTV 其實已經有解決方案了,GPTV 其實是 GPT-4 Vision 的一個縮寫,今年 11 月跟着 GPT-4 的上線一起來到了大衆的視野。
GPT-4 Vision 能做到的事簡單來說,就是可以看懂用戶發給它的圖片。
比如像下面這樣上傳一張過馬路的照片,然後問 GPT-4 照片裏有多少人。它的回答是有 137 人,還很謙虛的說我是大概估算了一下,有些地方太暗還有些人被擋住了,所以我可能數得不準。 [ 2 ]
大家一擁而上搞出了許多花樣,包括但不限于:足球比賽解說、實時解讀攝像頭裏出現的物品、根據手繪草圖在電腦上幫你畫圖等等。 [ 3 ]
大家一緻評價:識别速度快、準确性也高,不過缺點也不是沒有,太貴。比如做一個 13 秒的足球視頻解說,就要花費約 30 美元。
但是能用錢解決的問題,都不是問題。
02
第二步,APPAgent 會根據人類設定的目标,自我思考并拆解這個目标需要哪些過程。
收到一個請求後,AppAgent 首先做的事情是觀察環境,也就是上面提到的 " 看圖說話 "。
然後再思考怎麽根據現狀去實現最終目标,得出結論之後就行動。
最後根據行動之後,帶來了哪些改變,做一個複盤,然後把這個複盤傳遞給下一個步驟。
比如說它點到了一個廣告,就會發現和主要任務無關,并将這一結果的複盤向下傳遞,并得出結論不要點這個頁面。
AppAgent 在訓練的時候強調了以目标爲導向的邏輯,如果進入了與目标不相關的頁面就返回上一頁。并且還加入了現有大模型中有關用戶界面的知識和人類操作的演示。
效果好得驚人,團隊在 9 個 APP 上總共測試了 45 個任務,AppAgent 在 10 個步驟内就能成功的概率高達 84.4%,而且平均下來隻需要 5.1 個步驟就可以完成。
這樣每一步下去都會越來越接近目标。
這是執行任務的過程拆解,而在具體的操作上,如何讓 AI 識别各個功能按鍵又是個大問題。
爲了提升 AppAgent 在操作上的準确度和效率,團隊在兩件事兒上下了功夫。
首先,他們先簡化了手機界面的坐标,根據前端的 XML 文件給每個 UI 元素指定了一個唯一編号。
然後,簡化了手機的交互操作,規定了以下 6 種操作:輕點、長按、滑動、輸入文字、返回和退出。
當 AppAgent 思考好了行動計劃以後,隻要根據操作 + 位置編号來執行就可以了。
像上圖裏的 " 點擊(3)",意思就是執行 " 點擊 " 這個操作,點的位置是編号爲 3 的區域,也就是郵件發送按鈕。
這種操作方式極大地提高了 AppAgent 操作的準确率。
在過去,直接用 GPT-4 來操作手機完成任務,成功率僅有 2.2%,而還讓 GPT-4 來指揮,但是執行端換成上面這種操作方式之後,成功率就提升到了 48.9%。
實際上,這篇論文提供的是一種訓練 AI 操作 APP 的解決方案,其突破性的創意在于改變了智能體實施操作的學習過程。
既互動方式模拟人類、識别 UI 靠數據标記、執行操作靠位置編号。
就當下來看,這是智能代理技術最爲先進的解決方案,讓明年 AI Agents 的普及成爲了一種可能。
這技術普及還有另一種問題:以後水軍刷評論更方便了。