剛剛,智譜來了一波大的——
你的手機、PC 等設備,統統都是可以讓 AI 來自動駕駛了。
在現場,智譜 CEO張鵬直接來了一個 live demo。
隻見他掏出榮耀手機,僅僅是說了三句話,就讓 AI 給現場和線上的觀衆發了兩個大紅包:
幫我創建一個面對面群聊,數字爲 1129,并将群聊名字改成智譜開放日。
幫我在智譜開放日的群聊裏發個一萬的紅包,數量爲一百個,名字爲"AI 給你發的第一個紅包 "。
幫我在支付寶發八百八十八個,總額爲一萬的口令紅包。
比較有意思的是,AutoGLM 現場 " 翻車 " 了,但這個小插曲不是因爲自身能力……而是因爲現場觀衆手速太快,AI 擠不進去群。
除了手機之外,張鵬在現場還展示手機和 PC 聯動的自動駕駛。
例如群發文件:
微信給智譜開放日,發送文件:智譜開放日新聞稿 .pdf。
再如給微博點贊:
打開微博,幫我給王心淩的微博點贊并發布評論。
嗯,在 PC 上執行這些任務,現在統統都變成發個指令就可以的事情了,然後 AI 就會像人一樣,一步一步幫你去做。
由此可見,大模型的輸出已不再局限于文本、圖像、音頻或視頻這樣的多模态;現在,它可以是一種動作(Action)。
正如張鵬在發布會中所述:
這一應用展現了大模型從對話(Chat)走向操作(Act),從生成式 AI(GenAI)邁向代理式 AI(Agentic AI)的演進趨勢。
但縱觀整場發布會,智譜不僅僅是 " 發布 " 這個動作,AI 自動駕駛的能力也有了相應的提升。
外賣能比價,54 個步驟不帶斷的
智譜此次在 Auto 這件事兒上,一共發布了三大産品,分别對應的是手機、Web 和 PC。
接下來,我們就逐個來看下。
手機:可自動駕駛更複雜的任務
AutoGLM,作爲智譜在手機上的自動駕駛,其實在一個月前就已經開啓内測。
而從今天的發布來看,是可以處理更加複雜的工作,例如跨 APP" 貨比三家 "。
在下面的這個案例中,AutoGLM 就先打開了美團、再打開餓了麽,對同一個商品的價格做了對比:
即使面對多達54 個步驟的超長任務,AutoGLM 也能不間斷 " 唰唰唰 " 地自主執行。
在下面這個例子中,用戶僅需說一句:
幫我在小紅書上看下準備火鍋都需要哪些食材,去小象超市采購回來。
張鵬表示,他們還親自測算了一下,AutoGLM 處理時間要比人類還快一些。
除此之外,AutoGLM 還推出了2 個新玩法。
第一個就是快捷短口令,對于經常提的要求,例如 " 在最近的店鋪點一杯瑞幸橙 C 冰美式 ",以後不用每次都說這麽多字了。
現在可以把它設置爲 " 每日咖啡 " 這四個字即可:
第二個新玩法就是随便模式——遇事不決,讓 AI 來做選擇。
還是點咖啡這個例子,在随便模式下,AI 會随機咖啡品牌和種類,直到關鍵的付款界面才需要用戶來操作。
Web:全自動上網
除了手機端之外,現在的 Web 端也可以 Auto 了。
在下面這個例子中,AutoGLM-Web 自動完成了 " 在百度搜索芒果 TV,打開再見愛人,播放最新一集,發彈幕 "。全程沒有人的幹預。
據悉,這個功能目前已經支持百度搜索、微博、知乎、GitHub 等數十個網站的自動駕駛。
PC:瑣碎工作交給 AI
GLM-PC是智譜這次新發布的電腦端的自動駕駛。
例如這樣的任務:
查詢浏覽并總結 Geoffrey Hinton 的百度百科,發給微信聯系人。
再如淘寶購物:
在淘寶上買 XL 的羽絨服并購買。
還有僅是把聊天截圖丢給 GLM-PC,它就直接能幫你預定會議:
據悉,目前智譜開放第一階段的内測體驗場景整體包括:
信息:适配微信、飛書、釘釘,可向聯系人或群聊發送發信息
參與會議:适配騰訊會議、飛書會議等,可定會議日程、發送會邀;可定時加入指定會議
網頁總結:可打開浏覽器,在平百度、公衆号、知乎、小紅書等平台搜索關鍵詞,進行閱讀總結或者翻譯等
總而言之,以往諸多瑣碎的事務,都可以交給 AI 來自動完成了。
背後是全球首個 UI Agent 視覺基座模型。
對于 AI 自動駕駛背後的原理,其實智譜也已經發布過相關的論文。
而此次發布的 GLM-PC 是一種拟人的多模态的感知,正是基于這篇智譜自研模型CogAgent。
值得一提的是,這也是全球首個UI Agent 視覺基座模型。
CogAgent 是一種視覺語言模型(VLM),專門用于理解和導航 GUI。
與僅能處理文本輸入的語言模型不同,CogAgent 可以處理截屏圖像,通過視覺輸入來識别頁面元素,如按鈕、圖标和文本位置。
因此,它不僅能理解頁面上的内容,還能直接模拟人類用戶的操作進行交互。
CogAgent 的特别之處在于它結合了低分辨率和高分辨率的圖像編碼器,以便更好地理解 GUI 頁面中不同類型的信息。
其輸入圖像分辨率高達 1120 × 1120,能夠準确識别頁面上較小的圖标和文本,使其在複雜的 GUI 任務中表現優異。
而 CogAgent 的核心可以歸結爲兩大部分:
一個視覺編碼器
一個語言解碼器
視覺編碼器用于處理輸入的 GUI 截屏,将其轉換爲适合模型理解的特征表示。
爲了平衡計算複雜度和輸入分辨率,CogAgent 使用了一種稱爲高分辨率交叉模塊的新設計,使得模型可以在高分辨率下仍然保持較低的計算開銷。
這一模塊的引入,使得 CogAgent 可以在無需顯著增加計算資源的情況下,獲得更精細的圖像特征。
具體來說,CogAgent 利用一種跨注意力機制,将高分辨率圖像特征與語言特征進行融合,從而在不同層次上理解頁面元素的關系。
這樣的設計,使得 CogAgent 在理解和操作網頁和移動設備的 GUI 任務上遠超基于語言模型的其他方法。
作爲一種通用視覺語言模型,CogAgent 在包括 VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet 和 POPE 在内的五個文本密集型和四個通用視覺問答基準任務上達到了最先進水平。
僅通過截圖作爲輸入,CogAgent 在 PC 和 Android 的 GUI 導航任務上超越了基于 LLM 的方法(例如 Mind2Web 和 AITW)所使用的 HTML 提取文本輸入,大幅提升了當前技術水平。
爲什麽 Auto 這件事很重要?
若是觀察近期業内的發展趨勢,Auto 已然成爲較爲前沿的那一個。
例如蘋果的 Apple Intelligence,Anthropic的 Computer Use、谷歌的 Jarvis,再到傳聞的 OpenAI 即将發布的 Operator。
頂尖企業,紛紛劍指 Auto。那麽爲何會如此?
先看技術發展。
在大模型技術出現之前,人們隻能通過鍵盤、鼠标、多點觸控等物理方式與機器交互,始終是人在适應機器。
而用戶至今仍需花費大量時間學習各種軟件操作,尤其是複雜的企業軟件界面,頻繁跨多個應用執行工作流,充滿了重複的機械操作,必須手動完成。
大模型正在改變這一點,讓機器适應人。這得益于大模型在自然語言、多模态感知和邏輯推理等方面的突破。
因此,現在的大模型可以理解界面、規劃任務、使用工具,甚至實現自我改進,初步具備了模仿人類與物理世界互動的能力。
一言蔽之,Agent 帶來了更符合直覺的人機交互。
再來看市場趨勢。
Gartner 已将代理式 AI 列爲 2025 年十大技術趨勢之一,據其預測:
到 2028 年,至少有 15% 的日常工作決策将由代理式 AI 自主完成。
至于智譜對此的理解,張鵬在現場也給出了解釋。
智譜将大模型的發展分爲五個階段:L1 語言能力、L2 邏輯能力(多模态)、L3 工具使用能力、L4 自我學習能力和 L5 探究科學規律。目前:
L1 語言能力:已達 80%
L2 邏輯能力:已達 60%
L3 工具使用能力:還在初期階段
L4 自我學習能力和 L5 科學探究能力:正在探索中
在 L3 階段,盡管取得了明顯進展,但大模型在一些基本操作上仍存在挑戰,例如滾動、拖動和縮放,這些對人類來說是輕而易舉的。
并且智譜對于 Agent 技術的發展并非是一蹴而就。
從 2023 年 4 月的 AgentBench 開始,到 8 月的 CogAgent 模型,2024 年的多項成果,智譜針對于 AutoGLM 和 GLM-PC 的模型 CogAgent 的研發工作,也進行了一年半的時間。
智譜還表示,未來将繼續加速對 Agent 模型産品的研發。
One More Thing
AI 要想 Auto 起來,技術能力固然是一方面,但生态亦然也是重要。
爲此,智譜已經在芯片、操作系統 、模型側和應用 APP 側,進行了一段時間的探索,和諸多手機、PC 廠商實現了深度合作。
在現場,包括榮耀、小鵬、華碩、高通、英特爾等合作夥伴也紛紛來站台。
智譜 COO 張帆還表示:
Agent 不僅在操作系統和 APP 上可以實現用戶體驗變革,還将會推廣到各類智能設備上,實現基于大模型的互聯互通。
這種擴展,具體到當下的各種設備,從手機到電腦,再到汽車、眼鏡、家居和各種邊端設備,理論上是沒有邊界限制的。
對于萬物皆可 Auto 的未來,你期待了嗎?
内測地址放下面了,感興趣的小夥伴可以去申請哦 ~
清言插件:
https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday
AutoGLM- 安卓:
https://agent.aminer.cn/
GLM-PC:
https://www.wjx.top/vm/mOs9cHw.aspx
— 完 —
「MEET2025 智能未來大會」
火熱報名中
定檔 12 月 11 日!李開複博士、周志華教授、智源研究院王仲遠院長都來量子位MEET2025 智能未來大會探讨行業破局之道了!
,觀衆報名通道已開啓!歡迎來到 MEET 智能未來大會,期待與您一起預見智能科技新未來
左右滑動查看最新嘉賓陣容
點這裏關注我,記得标星哦~
一鍵三連「點贊」、「分享」和「在看」
科技前沿進展日日相見 ~
>