
來源:獵雲網
人類與機器的互動方式正在發生範式轉變。這是由于隻有對話功能的 Chatbot,正在進化爲 " 有手、有腦、有眼睛 " 的自主 Agent。
11 月 29 日,作爲最早探索 Agent 的大模型企業之一,智譜帶來了多個新進展:
AutoGLM 可以自主執行超過 50 步的長步驟操作,也可以跨 APP 執行任務;
AutoGLM 開啓 " 全自動 " 上網新體驗,支持等數十個網站的無人駕駛;
像人一樣操作計算機的 GLM-PC 啓動内測,基于視覺多模态模型實現通用 Agent 的技術探索。
在 Agent OpenDay 現場,智譜 CEO 張鵬下達了一個簡單語音指令,AutoGLM 便給在場數百位嘉賓發送了 " 一個來自 AI 的微信紅包 "。此外,AutoGLM 還可以通過手機,遠程指揮電腦自動發送文件。

AutoGLM 新升級:挑戰更複雜
新升級的 AutoGLM 可以挑戰完成複雜任務:
1. 超長任務:理解超長指令,執行超長任務。例如,在采購火鍋食材的例子中,AutoGLM 自主執行了 54 步無打斷操作。并且,在這種多步、循環任務中,AutoGLM 的速度表現超過人手動操作。
2. 跨 App:AutoGLM 支持跨 App 來執行任務。用戶将習慣于 AI 自動處理,而不是在多個 App 間來回切換。由于目前 AutoGLM 形态更像是用戶和應用間的 App 執行的調度層,因此跨 App 能力是裏面非常關鍵的一步。
3. 短口令:AutoGLM 能夠支持長任務的自定義短語。今天,你不用再給 AutoGLM 說:" 幫我買一杯瑞幸咖啡,生椰拿鐵,五道口店,大杯、熱、微糖 " 這類超長指令,隻需要說 " 點咖啡 "。
4. 随便模式:我們都會陷入選擇恐懼,AutoGLM 今天可以主動幫你做出決策。随便模式下所有步驟都讓 AI 決策,帶來有抽盲盒式的驚喜。想不想嘗嘗 AI 爲你點的咖啡口味?
同時,AutoGLM 啓動大規模内測,并将盡快上線成爲面向 C 端用戶的産品。 AutoGLM 同時宣布啓動 "10 個億級 App 免費 Auto 升級 " 的計劃,邀請 App 夥伴聯合探索自己的 Auto 新場景。
支持核心場景和核心應用的 AutoGLM 标品 API,會在兩周内上線到智譜 maas 開放平台(bigmodel.cn)試用。
Web 端開啓 " 全自動 " 上網新體驗:即日起智譜清言插件上線 AutoGLM 功能,支持搜索、微博、知乎、Github 等數十個網站的無人駕駛。在現場 demo 裏,智譜清言插件自動完成了 " 搜索芒果 tv,打開小巷人家,播放最新一集,發彈幕結局打卡 "。全程沒有人的幹預。

GLM-PC 邀測:面向 " 無人駕駛 " 電腦的一次技術探索
不隻是基于手機和浏覽器,今天智譜還帶來基于 PC 的自主 Agent。GLM-PC 是 GLM 團隊面向 " 無人駕駛 "PC 的一次技術探索,基于智譜的多模态模型 CogAgent。目前開放第一階段的内測場景,包括:
1. 會議替身:幫用戶預定和參與會議,發送會議總結。
2. 文檔處理:支持文檔下載、文檔發送、理解和總結文檔。
3. 網頁搜索與總結:在指定平台(如微信公衆号、知乎、小紅書等)搜索指定關鍵詞,完成閱讀、總結。
4. 遠程和定時操作:遠程手機發指令,GLM-PC 可以自主完成電腦操作;設定一個未來時間,在開機狀态下定時執行任務。
5. 隐形屏幕:在用戶工作時,GLM-PC 可以在隐形屏幕上自主完成工作,解放屏幕使用權。
人用電腦的過程——用眼看圖形及文字,用腦規劃,再用手執行單擊雙擊、輸入等操作。GLM-PC 用電腦的方式幾乎完全和人一樣。也正因如此,理論上隻要是爲人類設計的應用,在 GLM-PC 學習之後它都能夠執行。這是一種系統級、跨平台的能力,不依賴于 HTML、API,具備更高的能力上限。
不過,由于 PC 的複雜程度,以及大家在 PC 完成的幾乎都是複雜任務,坦率的說,今天大模型的能力距離真正代替大家辦公還有一定距離。GLM-PC 在當前版本下,用戶仍需要輸入非常精準的指令。
目前,GLM-PC" 邀請體驗 " 已開啓。智譜方面表示,會在産品完善後盡快上線供所有用戶使用,同時也希望和更多廠商聯合共創共同探索。
AutoGLM 和 GLM-PC 是智譜邁向 AI 智能操作系統的重要嘗試。它們的出現源于智譜在大語言模型、多模态模型、邏輯推理和工具使用等方面的技術積累。從 2023 年 4 月的 AgentBench 開始,到 8 月的 CogAgent 模型,智譜針對 AutoGLM,和 GLM-PC 的模型 CogAgent 的研發工作進行了一年半的時間。
與 OpenAI 有所不同,智譜定義了大模型發展的五個階段:L1 語言能力、L2 邏輯能力(多模态能力)、L3 使用工具的能力、 L4 自我學習能力、 L5 探究科學規律。
發展至今,大模型已經初步具備了人類與現實物理世界互動的部分能力。"Agent 将極大地提升 L3 使用工具能力,同時開啓對 L4 自我學習能力的探索。" 張鵬說。

張鵬表示,未來 GLM 團隊将繼續加速 agent 模型産品的研發,期待着一句話操作電腦和手機的範式盡快到來。
大模型從 Chat 走向 Act
如今,大模型技術正在改變機器和人的互動方式,基于理解需求、規劃與決策、執行行動和自我反思,Agent 将帶來符合直覺的人機交互——從人适應機器,到讓機器适應人。
蘋果(Apple Intelligence)、Anthropic(Computer Use)、谷歌(Jarvis)和 OpenAI(Operator)等企業也已經把 Agent 作爲 2025 年的主要關注點。業内普遍認爲,2025 年将是 Agent 爆發之年。Gartner 近期将 agentic AI 列爲 2025 年十大技術趨勢之一,并預測 2028 年至少有 15% 的日常工作決策将由 agentic AI 自主完成,而這一數字在 2024 年爲 0。
與 GenAI 不同,Agent 是目标驅動型的,能夠完全執行工作流程,适應、學習、叠代、與其他系統和人類協作,并端到端地完成任務。在張鵬看來,Agent 可以看作是大模型通用操作系統 LLM-OS 的雛形。
" 現階段,AutoGLM 相當于在人與應用之間添加一個執行的調度層,很大程度上改變人機的交互形式。更重要的是,我們看到了 LLM-OS 的可能,基于大模型智能能力(從 L1 到 L4 乃至更高),未來有機會實現原生的人機交互。将人機交互範式帶向新的階段。"
AI 時代智能設備新範式
随着大模型能力的不斷進化,AI 慢慢長出了自己的腦、眼和手。不僅僅是智能在持續增強,感知能力和交互帶寬也在不斷豐富和拓展,還有現在的 Agent 帶來了執行力的加速提升。
智譜 COO 張帆表示,智能設備在大模型的加持下,将會煥發出新的機會。手機 +AI 會變成随身個人智能助理,PC+AI 将會成爲全新生産力工具,汽車 +AI 将會讓車成爲人們的智能第三生活空間。當然,大模型不僅僅會爲手機、PC 和汽車帶來機會,而是會惠及各種各樣的智能設備。大模型的不斷進化已經爲 Agent 變革人車交互體驗奠定了強大的基礎。

随着端側性能及算力持續提升、爲 AI 原生設備适配的模型和端雲同源的協同架構出現,Agent 不僅在操作系統 OS 和應用上實現用戶體驗變革,還能将其推廣到各類智能設備上,從手機到電腦,再到汽車、眼鏡、家居和各種 edge side 設備,各種 AI 原生設備正在争相湧現。
最後,榮耀 AI 技術總監王作建、華碩 AIPC 智能生态負責人鍾懷聖、小鵬汽車座艙智能語音 / 智能化業務負責人廉磊、高通 AI 産品技術中國區負責人萬衛星、英特爾中國區技術部總經理高宇,作爲智譜的客戶及合作夥伴,分别從不同的場景出發,分享了他們對智能終端的實踐及展望。