在昨天拿到 Manus AI 的測試碼、連續進行了數個小時的測試之後,有不少在手機 /PC 廠商的工程師 / 産品經理朋友,來找我「打聽」Manus AI 的真正能力如何。
爲什麽硬件行業這麽關注 Manus?這與當下硬件行業最受關注的概念—— LAM 有關。LAM 是一個從 LLM 延伸而來的名詞,全名爲大型行動模型 ( Large Action Models ) ,也稱爲大型智能體模型。
與 LLM 緻力于「超越人類」,因此在訓練方法上也經常突破人類經驗完全不同,現階段 LAM 想要做到的,是成爲人類的手,去作爲人類用戶在數字世界中的代理人。
這與 Manus 的核心理念有相通之處。目前而言,Manus AI 的體驗,圍繞在一個運行在雲端的 Ubuntu 操作系統虛拟機上,同時在操作系統中打開 Chrome 浏覽器界面,在網頁中或是調用其他軟件,來完成各種用戶的請求。
爲了完成這個要求,Manus 需求同時具備「自然語義理解和計算機視覺」,以及「用戶行爲習慣學習與場景感知」,同時擁有「意圖識别自主決策」的能力,當然最重要的,同時也是讓 Manus AI 與此前的 Computer Use 在體驗上拉開明顯差距的,還是「跨應用調用工具」的能力。
舉例來講,對于常見的「能不能用 Manus AI 生成一段視頻」這個問題,嚴格來講回答是「可以」,但 Manus AI 去生成一段視頻的方式,也是通過在網絡上搜索第三方 AI 視頻生成工具,并在這個過程中使用到各種工具,來完成用戶的請求。
01 LAM 真正的未來
進入 2025 年,Agent AI,或者說 LAM 在端側的落地,已經是再明顯不過的趨勢。但怎麽落地,以及最終呈現給用戶的會是怎樣的商業産品,仍然有很多問題。
早在 2024 年初,彼時發布的 Rabbit R1 硬件,以及對應的 LAM 工具—— Rabbit LAM Playground 其實已經展現出了今天我們在 Manus AI 中看到的能力雛形。
在官方的演示中,Rabbit R1 所搭載的 LAM Playground,能主動幫助用戶完成類似音樂播放、打車等服務,實際上背後的技術原理,就是通過使用 LAM 來訪問對應服務的網站,通過模拟人類與網站的交互方式,完成用戶指令中的工作内容。

Rabbit 發布的 LAM Playground,其實已經具備今天 Manus AI 的初步能力 | 圖片來源:Rabbit
但彼時的 Rabbit Playground 受限于模型以及開發能力的限制,還并不能做到像人類一樣,在互聯網中暢通無阻。
在實際用戶的測試中,面對類似人機驗證這樣的場景 Rabbit Playground 仍然難以通過,也無法使用第三方工具,來完成生成複雜表格、導出 PPT 這樣的用戶需求。
由于在實際使用中面臨着諸多挑戰,Rabbit R1 作爲一款明星 AI 硬件,很快就退出主流用戶的視野,AI 時代的熱點變化的是如此之快,以至于到了 2025 年年初,在互聯網上已經很難找到關于這款産品讨論的聲音。
但 LAM 這個概念,作爲一個可能改變人類用戶與智能硬件設備交互的火種,留存了下來,仍然作爲行業中一個重要的研究方向而存在。
Manus AI 的出現,尤其是它在自然語義理解,以及在互聯網訪問網站時,面對各種各樣的人機識别,都能「暢行無阻」的能力,讓不少仍然在緻力于 LAM 産品開發、并希望在今年推出相關測試産品的人,再次看到了一個契機,并希望通過 Manus AI 目前的能力以及展現出的短闆,來進一步完善自己的産品。

Manus AI 已經能在遇到各種人機驗證時成功通過,大幅提升了對互聯網的訪問能力 | 圖片來源:極客公園
目前,在緻力于開發 LAM 産品、來提升用戶對手機 / 電腦等産品使用體驗的硬件廠商中,系統級廠商在做 LAM 中,有着最明顯的優勢。
「Manus AI 這種命令執行方式,對于算力要求非常高,但如果是浏覽器或智能手機操作系統來做這件事,能通過獲得更多高質量數據的方式,大幅降低算力成本與提升運行速度」。
「做通用 LAM 并不用針對某些單一網站去适配,雖然在某些場景下可能」
「 Manus AI 中的一些簡單的場景,并不需要完全搬到(雲端)上面去處理,反而是留在端側效果會更好」據這位面向桌面端開發 LAM 應用的開發者介紹,當前的端側模型經過針對性訓練之後,目前也能實現簡單的通用網頁訪問并内容識别能力,已經能初步完成例如「訪問旅遊相關網站并制定旅遊計劃」這樣的需求。
此外由于端側有着更便捷的文件管理系統,同時也有更強大的本地文件管理工具,遇到類似「整理并分析簡曆」這樣的需求,端側 LAM 同樣能做到更好的效果。
在我的實際測試中,我想要讓 Manus AI 幫我生成一個 PPT 文件,它就能自動在電腦上安裝對應的依賴環境,然後利用工具來自動完成 PPT 生成,雖然最終仍然完成了用戶指令中的需求,但仍然因此大幅拉低了對請求的響應時間。
02 如何理解 Manus 的意義
當前,Manus AI 展示出的邏輯中,已經向外界展示了 LAM 在「生産力」領域能帶來怎樣的改變,但仍然有很多問題亟待解答。
其中最重要的,也是被問到最多的,或許就是商業化這件事:不少用戶對于 Manus AI 這樣的服務,最終會定價多少有着諸多的猜測。
除了類似 Manus AI 這樣,完全交給雲端運行,用戶端隻需要「輸入命令 - 返回成果」的模式,前面提到的不少硬件廠商,實際上是将端側 / 雲端混合運行的模式作爲主流方案。
這其實也暗示了,未來 LAM 的發展,或許将分爲兩個不同的主流方向;不僅有基于現有硬件算力,在端側實現性能稍差的 LAM,也有完全基于雲端的「數字代理」服務。
但這樣的服務,距離最終投向市場可能還有不小的距離。「Manus AI 如果訂閱的話,這樣的服務 20 美元(訂閱費)顯然是完全不夠的。」一位目前就職于手機廠商,研發 LAM 端側應用的工程師對此評價道。
僅僅是全程虛拟機運行以及以及實時顯示内容串流的高昂成本,就足以成爲此類服務現階段面向普通消費級市場的最大阻力。
對于以 ChatGPT 爲代表的 LLM 産品來講,過去幾年已經迅速建立起一套行之有效的訂閱系統,用戶也在「每個月 20 美元」的周期往複中,建立起了一個準确的心理預期。
如果 LAM 未來想要以這種「前端硬件 + 後端雲服務」的方式繼續存在,同樣也要經曆這樣一個過程,同時在這個過程中将訂閱成本快速拉低,最終将這一商業模式跑通。
随着完全在雲端部署的 LAM 進一步完善,我們大概率會再次看到像 Rabbit R1 這樣、有着更靈活形态的 AI 硬件設備出現:它可以是智能手表、也可以是 AI 眼鏡,甚至都可能是完全不需要屏幕的智能耳機等設備。
到這個階段,LAM 實際上已經進化成了 Agent UI:用戶并不再需要傳統手機桌面、浏覽器那樣的用戶交互界面,隻需要一個供用戶輸入指令的方式,以及接受 LAM 最終交付成果的終端。

當初 Rabbit R1 的展示場景中,就已經出現了一些 Manus AI 的案例 | 圖片來源:Rabbit
它或許不如 LLM 那樣科幻,但它卻是在現有硬件的基礎上,短期内我們能看到最明顯、最有能力給用戶與硬件的交互,帶來改變的方向。
随着 Manus AI 進一步将 LAM 以及 Agent AI 能做到什麽,展現給更多普通用戶,這或許就是 Manus AI 在這場浪潮最終退去之後,給我們留下的最重要的收獲。
「即便最終赢家不是它,它也足夠意義重大。」一位 LAM 産品經理這樣評價 Manus AI 的行業價值。