
2025 年開年以來,AI 發展如火如荼,DeepSeek R1、OpenAI CUA、Manus 等重要創新層出不窮,眼花缭亂。
這裏我将最近一個月以來的思考總結一下,對 2025 年 AI 發展趨勢做幾點預判。
一、Manus:Agent 元年的一次搶跑
Manus 推出之後,我們第一時間拿到了體驗賬号,進行了充分的體驗測評。
先說結論:雖然 Manus 目前還有種種不足,但它的産品設計思路創意滿滿,值得我們給予充分的肯定。

Manus 的核心架構基于" 虛拟機 + 多 Agent 協同 "模式,通過整合多個底層大模型的 API,實現任務的動态分配與模型調用。
Manus 突破了傳統 AI 助手僅生成建議的局限,實現了從 " 需求輸入 " 到 " 成果交付 " 的端到端閉環。
Manus 提出 "Less Structure, More Intelligence" 的交互理念,通過無代碼化的自然語言接口降低用戶使用門檻。

與此同時,Manus 使用一個外置的 markdown 文件來管理 Agent 的任務規劃,并且将階段性的工作成果存儲爲獨立文件,這也是一個非常有趣的創新點。


二、Manus 的不足與缺陷
Manus 在 MultiAgent 的道路上提供了一種非常有趣的思路,但現在依然存在一些顯而易見的不足之處。
首先是 " 幻覺累加 " 的問題。
Agent 的本質是多次大模型問答的串并聯。如果單次大模型問答的準确率是 90%,串聯 10 次的話,最終 Agent 回答準确的概率是 0.9^10,隻有 1/3 左右了。
在下面的案例中,Manus 的任務是針對某上市公司進行财務數據分析。Manus 很聰明地 import 了 data_api 模塊,準備從雅虎提供的接口中調取财務數據。
但是在 process_financial_data 函數中,manus 竟然把 revenue、gross_profit 等數據直接 " 硬編碼 " 到了代碼中,讓人猝不及防。而且經過驗證,這裏的數據有部分是錯誤的。
如果原始數據出錯了,那麽後續無論分析得多麽深入、圖表做得多麽 fancy 都失去了意義。

Manus 的第二個問題是可供大模型調用的工具不足。
下面這個例子中,Manus 的任務是寫一篇關于 " 小米 Su7" 的市場分析報告 PPT。
Manus 完美地拆分了任務,并且檢索了大量新聞,但是最後它無法生成一份 PPT,因爲它無法調用 Office 軟件。
目前 Manus輸出的内容形式多爲純文本或者網頁,還無法和人類工作流進行完美融合。

Manus 遇到的第三個挑戰是小院高牆的互聯網生态。
互聯網上有很多優質信息是存放在 " 圍欄 " 中的。
比如當我們讓 Manus 去分析比較市面上所有 AI 智能眼鏡的性價比時,它聰明地找到了對應商品的淘寶網頁。
但是當 Manus 想要打開具體産品頁面獲取價格性能等詳細信息時,淘寶判定它爲機器人,并拒絕了 Manus 的訪問。

無獨有偶,當我們讓 Manus 爲一家非上市公司進行出具商業分析報告時,Manus 爲了獲取公司的最新融資進展,訪問了 CrunchBase 數據庫。
但是 Manus 的訪問被 CrunchBase 判定爲機器人,随後被無情地拒絕了。
互聯網看似公開透明,實則存在大量類似小院高牆的情況,優質信息往往就存放在這些高牆之内,Manus 無法直接獲取,這無疑阻礙了 Manus 的工作效果。

盡管有着種種問題和挑戰,Manus 依然給大家描繪了 MultiAgent 的巨大前景,打響了 Agent 元年的第一槍,值得我們給予充分的肯定。
在 Manus 占據大家視野的同時,海外 AI 大廠究竟做了哪些技術儲備呢?
三、OpenAI CUA:一個會自主操作電腦的 Agent
在今年的 1 月底,OpenAI 發布了由其新模型 CUA 驅動的 AI 智能體 Operator。
CUA 模型融合了 GPT-4o 的視覺能力和通過強化學習實現的高級推理能力,能夠将任務分解爲多步驟計劃,并在遇到挑戰時進行自我調整和糾正。
簡而言之,CUA 就是一個會操作電腦的 Agent,它的運作原理非常直白且簡潔,如下圖所示。

首先,CUA 會同時接受兩種模态的輸入:其一是文本指令,其二是屏幕截圖。
CUA 會同時處理這兩種信息,并且生成一系列動作指令,比如 " 點擊屏幕上坐标爲 ( 300,200 ) 的點,并且輸入 XXX,按回車 "。
電腦接收到指令并完成操作後,會将新的屏幕截圖與新的任務指令返回給 CUA,如此循環往複,直到獲得最終答案。
那麽 CUA 目前操作電腦的能力達到了怎樣的水平呢?
根據 OpenAI 的官方測評,CUA 在操作電腦和操作浏覽器這兩個場景上,相比上一代 SOTA 都有了巨大的性能提升。
但是相比人類而言,依然有着較大的差距。換句話來說,目前頂級的 Agent 依然沒有辦法像一個成年人一樣正确地操作電腦,但我相信這個現狀在今年内就會發生質變。

四、Anthropic MCP:AI 時代下的 TCP/IP 協議
剛才在分析 Manus 的缺陷時,提到了 " 工具不足 " 的問題。
Anthropic 顯然也意識到了這個問題,并在去年年底推出了 MCP 來從根源上解決這個問題。
MCP 的全稱是 Model Context Protocol,它定義了應用程序和 AI 模型之間交換上下文信息的方式,這使得開發者能夠以一緻的方式将各種數據源、工具和功能連接到 AI 模型。
MCP 之于 AI,有點類似于 TCP/IP 之于互聯網。

MCP 有三個重要特點:
雙向通信:AI 與工具之間的通信是雙向的,有狀态的。AI 既能從工具獲取數據,也能向工具發送指令。
當前越來越多的工具及服務開始接入 MCP,呈現愈演愈烈之勢,包括 Google Maps、PGSQL、ClickHouse、Atlassian、Stripe 等等。


在 Smithery 平台上你可以輕松查找不同功能對應的工具及服務。随着越來越多的 Server 接入 MCP 協議,未來 AI 能夠直接調用的工具将呈現指數級增長,這能從根源上打開 Agent 能力的天花闆。

五、2025 年 AI 發展新趨勢:後訓練、RL、MultiAgent
這裏我結合最近幾個月以來的觀察和思考,總結一下 2025 年 AI 發展的幾點重要趨勢。
第一,預訓練即将終結,後訓練成爲重點。
這其實已經是行業共識。去年年底時,Ilya 在 NeurIPS 大會上提到一個重要觀點:數據是 AI 時代的化石燃料,因爲我們人類隻有一個互聯網。
與此同時,在今年 DeepSeek R1 的論文中,提到了後訓練将成爲大模型訓練管線中的重要組成部分。

第二,針對後訓練而言,強化學習将成爲主流,監督學習的重要性逐漸下降。
DeepSeek R1 帶來最重要的啓發是:純粹的 RL 可能是通向 AGI 的正确路徑。
随着 TTS 的增加,大模型會自我湧現出複雜的推理行爲,而無需刻意引導。
如下邊右圖所示,橫軸是大模型 RL 的叠代步數,縱軸是單次問答的 token 長度。我們可以看到,随着大模型 RL 步數的增加,大模型會自主地從 " 快思考 " 變成 " 慢思考 ",從最開始每次回答 100 個 token,到最後每次回答接近 10000 個 token。

DeepSeek 團隊将這種現象稱爲 "self-evolution",并認爲它是 "the emergence of sophisticated behaviors"。
具體是哪些複雜行爲的湧現呢?DeepSeek 也給出了答案,比如:self-verfication、reflection等。
這個發現對于我們來說有着重要的啓發。未來監督學習在 AI 訓練中究竟應該扮演怎樣的角色?監督學習是否反而限制了 AI 解決問題的能力?
是否不應該讓 AI 通過模仿人類的思維方式來獲得智能,而是讓 AI 發展出更加原生的智能?
這些問題,都有待整個 AI 行業通過實踐來給出答案。
第三,MutiAgent 是确定性的大趨勢。
如果将 AI 和人腦進行類比的話,大模型就像是人腦中的 " 前額葉 "。
衆所周知,前額葉主要負責高級認知功能,比如注意力的分配、思考推理、決策等。
但是僅僅有前額葉,大腦是無法處理複雜任務的。我們需要有颞葉來進行聽覺信号的解析,需要頂葉進行閱讀和算術,需要小腦來進行運動協調,需要海馬體來進行記憶索引。
MultiAgent 的定義恰恰就是讓多個不同的模型之間互相協調,從單獨的 " 前額葉 " 走向 " 完整的大腦 ",從而處理更加複雜的現實任務。
在這個藍圖中,MCP 就起到了非常重要的作用:協調統一大模型與各工具之間的數據通信接口。

結語:抓好扶手,未來已來
2025 年是 AI Agent 元年,Manus 的出現打響了第一炮。
無論是 OpenAI 的 CUA 還是 Anthropic 的 MCP 都指向了一個共同的未來,未來二年 AI 的發展速度将非常陡峭。
抓好扶手,未來已來!