雖然我們每天都已經習慣了用手機來完成簽到、回複、發信息等各種工作,但很多人還是時不時的會感慨,科技都已經這麽發達了,這些事手機就不能自己動手把工作幹了嗎?
還真别說,這些事可能用不了多久就不需要我們親自動手了。
騰訊這兩天聯手德州大學達拉斯分校的研究團隊在 Arxiv 上發布了一篇名爲《AppAgent: Multimodal Agents as Smartphone Users》的論文,介紹了一個名爲 AppAgent 的多模态模型應用項目。論文表示,AppAgent 可以學習用戶的手機操作習慣,在手機上自己執行各種操作。
它可以模仿用戶的口吻在社交媒體 APP 上發帖,還可以按照人的口氣撰寫和發送郵件,還可以修圖、導航、給視頻進行評論,甚至是通過 APP 買東西。
AppAgent 的操作分爲兩個階段,分别稱爲探索階段和部署階段。在探索階段,App Agent 觀察不同應用程序用戶界面的交互情況,這就好像一個牙牙學語的孩子,隻要通過充分觀察,App Agent 就能熟練使用某個應用程序。而這些知識會被精心整理成文檔,放進 App Agent 的知識庫中。
學習階段完成後,AppAgent 就可以開始自己行動了。這個階段它可以處理任何支持的應用程序操作任務。這種有條不紊的方法使 App Agent 能夠高效地完成不同應用程序中的各種複雜任務。
目前騰訊已經對 Temu、Gmail、X、Youtube 等十款 APP 進行多次測試,至少确保了 50 多種不同的任務。而在開放測試之後,App Agent 還将會學習到更多 APP 的操作方法,方便不同人群使用。
騰訊還放出了一個案例,直接讓 App Agent 在 Gmail 中給人發一封郵件。在向 App Agent 發出要求之後,App Agent 直接輕車熟路的打開 Gmail,找到相應的聯系人,洋洋灑灑的寫了一封郵件給人發過去。全程根本不需要人類自己動手。
這聽上去是不是很酷,有了 App Agent,一些重複繁瑣的功能就可以自己完成。最典型的場景,就是拼多多的 " 砍一刀 "。以後再面對家人朋友幫忙砍一刀的要求時,大家完全可以把這些無聊又繁瑣的複制、點擊操作交給 App Agent 來完成。
而對于很多上班族來說,App Agent 完全可以自己完成手機上下班打卡的工作需求,再也不用擔心因爲忘記打卡而錯失全勤獎的問題。App Agent 還解決了安卓用戶無法借助 Siri 這樣的語音助手自己回複消息的問題,隻要日後開放語音接口,就可以輕松實現解放雙手,動動嘴就可以讓手機自己回複消息的夢想。
App Agent 一經公布,讓不少人對這款解放雙手的 AI 産品産生了興趣。
App Agent 看上去很棒
不過也有些用戶在感慨 App Agent 很酷的同時,也在擔心它的使用場景。
這也可能是個雙刃劍,它在提高工作效率的同時,也可以用于操縱社交媒體。
還有人在擔憂自己的數據安全。
有些擔憂也挺有道理的,畢竟誰也不能保證在 App Agent 的幫助下手機會不會自己給自己安排一堆任務。
到時候一覺醒來人們發現,手機自己給購物車清空了,恐怕很多人就要覺得這是一場噩夢了。