AI智能體，人工智能的“增程模式”？

文 | 極智 GeeTech

在人工智能的發展長河中，我們正站在一個激動人心的轉折點。

想象一下，未來的人工智能什麽樣？隻需簡單一個指令，它們便能領悟并執行複雜的任務；它們還能通過視覺捕捉用戶的表情和動作，判斷其情緒狀态。這不再是好萊塢科幻電影中的場景，而是正逐步走進現實的 AI 智能體時代。

早在 2023 年 11 月，微軟創始人比爾 · 蓋茨就發文表示，智能體不僅會改變每個人與計算機交互的方式，還将颠覆軟件行業，帶來自我們從鍵入命令到點擊圖标以來最大的計算革命。OpenAI 首席執行官山姆 · 奧特曼也曾在多個場合表示：構建龐大 AI 模型的時代已經結束，AI 智能體才是未來的真正挑戰。今年 4 月份，AI 著名學者、斯坦福大學教授吳恩達指出，智能體工作流将在今年推動 AI 取得巨大進步，甚至可能超過下一代基礎模型。

類比智能電動汽車，猶如其在新能源技術應用和裏程焦慮之間尋找到某種平衡的增程路線一樣，AI 智能體讓人工智能進入了 " 增程模式 "，在 AI 技術和行業應用之間盡可能達成新的平衡。

被看好的 AI 智能體

顧名思義，AI 智能體就是具有智能的實體，能夠自主感知環境、做出決策并執行行動，它可以是一個程序、一個系統，也可以是一個機器人。

去年，斯坦福大學和谷歌的聯合研究團隊發表了一篇題爲《生成式智能體：人類行爲的交互式模拟》的研究論文。在文中，居住在虛拟小鎮 Smallville 的 25 個虛拟人在接入 ChatGPT 之後，表現出各種類似人類的行爲，由此帶火了 AI 智能體概念。

此後，很多研究團隊将自己研發的大模型接入《我的世界》等遊戲，比如，英偉達首席科學家 Jim Fan 在《我的世界》中創造出了一個名叫 Voyager 的 AI 智能體，很快， Voyager 表現出了十分高超的學習能力，可以無師自通地學習到挖掘、建房屋、收集、打獵等遊戲中的技能，還會根據不同的地形條件調整自己的資源收集策略。

OpenAI 曾列出實現通用人工智能的五級路線圖：L1 是聊天機器人；L2 是推理者，即像人類一樣能夠解決問題的 AI；L3 是智能體，即不僅能思考，還可采取行動的 AI 系統；L4 是創新者；L5 是組織者。這其中，AI 智能體恰好位于承前啓後的關鍵位置。

作爲人工智能領域的一個重要概念，學術界和産業界對 AI 智能體提出了各種定義。大緻來說，一個 AI 智能體應具備類似人類的思考和規劃能力，并具備一定的技能以便與環境和人類進行交互，完成特定的任務。

或許把 AI 智能體類比成計算機環境中的數字人，我們會更好理解——數字人的大腦就是大語言模型或是人工智能算法，能夠處理信息、在實時交互中做出決策；感知模塊就相當于眼睛、耳朵等感官，用來獲得文本、聲音、圖像等不同環境狀态的信息；記憶和檢索模塊則像神經元，用來存儲經驗、輔助決策；行動執行模塊則是四肢，用來執行大腦做出的決策。

長久以來，人類一直在追求更加 " 類人 " 甚至 " 超人 " 的人工智能，而智能體被認爲是實現這一追求的有效手段。近些年，随着大數據和計算能力的提升，各種深度學習大模型得到了迅猛發展。這爲開發新一代 AI 智能體提供了巨大支撐，并在實踐中取得了較爲顯著的進展。

比如，谷歌 DeepMind 人工智能系統展示了用于機器人的 AI 智能體 "RoboCat"；亞馬遜雲科技推出了 Amazon Bedrock 智能體，可以自動分解企業 AI 應用開發任務等等。Bedrock 中的智能體能夠理解目标、制定計劃并采取行動。新的記憶保留功能允許智能體随時間記住并從互動中學習，實現更複雜、更長期運行和更具适應性的任務。

這些 AI 智能體的核心是人工智能算法，包括機器學習、深度學習、強化學習、人工神經網絡等技術。通過這些算法，AI 智能體可以從大量數據中學習并改進自身的性能，不斷優化自己的決策和行爲，還可以根據環境變化做出靈活地調整，适應不同場景和任務。

目前，AI 智能體已在不少場景中得到應用，如客服、編程、内容創作、知識獲取、财務、手機助手、工業制造等。AI 智能體的出現，标志着人工智能從簡單的規則匹配和計算模拟向更高級别的自主智能邁進，促進了生産效率的提升和生産方式的變革，開辟了人們認識和改造世界的新境界。

AI 智能體的感官革命

莫拉維克悖論（Moravec ’ s paradox）指出，對于人工智能系統而言，高級推理隻需非常少的計算能力，而實現人類習以爲常的感知運動技能卻需要耗費巨大的計算資源。實質上，與人類本能可以完成的基本感官任務相比，複雜的邏輯任務對 AI 而言更加容易。這一悖論凸顯了現階段的 AI 與人類認知能力之間的差異。

著名計算機科學家吳恩達曾說：" 人類是多模态的生物 , 我們的 AI 也應該是多模态的。" 這句話道出了多模态 AI 的核心價值——讓機器更接近人類的認知方式，從而實現更自然、更高效的人機交互。

我們每個人就像一個智能終端，通常需要去學校上課接受學識熏陶（訓練），但訓練與學習的目的和結果是我們有能力自主工作和生活，而不需要總是依賴外部的指令和控制。人們通過視覺、語言、聲音、觸覺、味覺和嗅覺等多種感官模式來了解周圍的世界，進而審時度勢，進行分析、推理、決斷并采取行動。

AI 智能體的核心在于 " 智能 "，自主性是其主要特點之一。它們可以在沒有人類幹預的情況下，根據預設的規則和目标，獨立地完成任務。

想象一下，一輛無人駕駛車裝備了先進的攝像頭、雷達和傳感器，這些高科技的 " 眼睛 " 讓它能夠 " 觀察 " 周圍的世界，捕捉到道路的實時狀況、其他車輛的動向、行人的位置以及交通信号的變化等信息。這些信息被傳輸到無人駕駛車的大腦——一個複雜的智能決策系統，這個系統能夠迅速分析這些數據，并制定出相應的駕駛策略。

例如，面對錯綜複雜的交通環境，自動駕駛汽車能夠計算出最優的行駛路線，甚至在需要時做出變道等複雜決策。一旦決策制定，執行系統便将這些智能決策轉化爲具體的駕駛動作，比如轉向、加速和制動。

在基于龐大數據和複雜算法構建的大型智能體模型中，交互性體現得較爲明顯。能夠 " 聽懂 " 并回應人類複雜多變的自然語言，正是 AI 智能體的神奇之處——它們不僅能夠 " 理解 " 人類的語言，還能夠進行流暢而富有洞察力的交互。

AI 智能體不僅能迅速适應各種任務和環境，還能通過持續學習不斷優化自己的性能。自深度學習技術取得突破以來，各種智能體模型通過不斷積累數據和自我完善，變得更加精準和高效。

此外，AI 智能體對環境的适應性也十分強大，在倉庫工作的自動化機器人能夠實時監測并避開障礙物。當感知到某個貨架位置發生變化時，它會立即更新其路徑規劃，有效地完成貨物的揀選和搬運任務。

AI 智能體的适應性還體現在它們能夠根據用戶的反饋進行自我調整。通過識别用戶的需求和偏好，AI 智能體可以不斷優化自己的行爲和輸出，提供更加個性化的服務，比如音樂軟件的音樂推薦、智能醫療的個性化治療等等。

多模态大模型和世界模型的出現，顯著提升了智能體的感知、交互和推理能力。多模态大模型能夠處理多種感知模式（如視覺、語言），使智能體能夠更全面地理解和響應複雜的環境。世界模型則通過模拟和理解物理環境中的規律，爲智能體提供了更強的預測和規劃能力。

經過多年的傳感器融合和 AI 演進，機器人現階段基本上都配備有多模态傳感器。随着機器人等邊緣設備開始具備更多的計算能力，這些設備正變得愈加智能，能夠感知周圍環境，理解并以自然語言進行溝通，通過數字傳感界面獲得觸覺，以及通過加速計、陀螺儀與磁力計等的組合，來感知機器人的比力、角速度，甚至機器人周圍的磁場。

在 Transformer 和大語言模型（LLM）出現之前，要在 AI 中實現多模态，通常需要用到多個負責不同類型數據（文本、圖像、音頻）的單獨模型，并通過複雜的過程對不同模态進行集成。

而在 Transformer 和 LLM 出現後，多模态變得更加集成化，使得單個模型可以同時處理和理解多種數據類型，從而産生對環境綜合感知能力更強大的 AI 系統，這一轉變大大提高了多模态 AI 應用的效率和有效性。

雖然 GPT-3 等 LLM 主要以文本爲基礎，但業界已朝着多模态取得了快速進展。從 OpenAI 的 CLIP 和 DALL · E，到現在的 Sora 和 GPT-4o，都是向多模态和更自然的人機交互邁進的模型範例。

例如，CLIP 可理解與自然語言配對的圖像，從而在視覺和文本信息之間架起橋梁；DALL · E 旨在根據文本描述生成圖像。我們看到 Google Gemini 模型也經曆了類似的演進。

2024 年，多模态演進加速發展。今年 2 月，OpenAI 發布了 Sora，它可以根據文本描述生成逼真或富有想象力的視頻。仔細想想，這可以爲構建通用世界模拟器提供一條頗有前景的道路，或成爲訓練機器人的重要工具。

3 個月後，GPT-4o 顯著提高了人機交互的性能，并且能夠在音頻、視覺和文本之間實時推理。綜合利用文本、視覺和音頻信息來端到端地訓練一個新模型，消除從輸入模态到文本，再從文本到輸出模态的兩次模态轉換，進而大幅提升性能。

多模态大模型有望改變機器智能的分析、推理和學習能力，使機器智能從專用轉向通用。通用化将有助于擴大規模，産生規模化的經濟效應，價格也能随着規模擴大而大幅降低，進而被更多領域采用，從而形成一個良性循環。

潛在風險不容忽視

AI 智能體通過模拟和擴展人類的認知能力，有望廣泛應用于醫療、交通、金融及國防等多個領域。有學者推測，到 2030 年，人工智能将助推全球生産總值增長 12% 左右。

不過，在看到 AI 智能體飛速發展的同時，也要看到其面臨的技術風險、倫理和隐私等問題。一群證券交易機器人通過高頻買賣合約便在納斯達克等證券交易所短暫地抹去了 1 萬億美元的價值，世界衛生組織使用的聊天機器人提供了過時的藥品審核信息，美國一位資深律師沒能判斷出自己向法庭提供的曆史案例文書竟然均由 ChatGPT 憑空捏造……這些真實發生的案例表明，AI 智能體帶來的隐患不容小觑。

因爲 AI 智能體可以自主決策，又能通過與環境交互施加對物理世界的影響，其一旦失控将給人類社會帶來極大威脅。哈佛大學教授齊特雷恩認爲，這種不僅能與人交談，還能在現實世界中行動的 AI 智能體，是 " 數字與模拟、比特與原子之間跨越血腦屏障的一步 "，應當引起警覺。

首先，AI 智能體在提供服務的過程中會收集大量數據，用戶需要确保數據安全，防止隐私洩露。

其次，AI 智能體的自主性越強，越有可能在複雜或未預見的情境中做出不可預測或不當的決策。AI 智能體的運行邏輯可能使其在實現特定目标過程中出現有害偏差，其帶來的安全隐患不容忽視。用更加通俗的話來說，就是在一些情況下，AI 智能體可能隻捕捉到目标的字面意思，沒有理解目标的實質意思，從而做出了一些錯誤的行爲。

再次，AI 大語言模型本身具備的 " 黑箱 " 和 " 幻覺 " 問題也會增加出現操作異常的頻率。還有一些 " 狡猾 " 的 AI 智能體能夠成功規避現有的安全措施，相關專家指出，如果一個 AI 智能體足夠先進，它就能夠識别出自己正在接受測試。目前已經發現一些 AI 智能體能夠識别安全測試并暫停不當行爲，這将導緻識别對人類危險算法的測試系統失效。

此外，由于目前并無有效的 AI 智能體退出機制，一些 AI 智能體被創造後可能無法被關閉。這些無法被停用的 AI 智能體，最終可能會在一個與最初啓動它們時完全不同的環境中運行，徹底背離其最初用途。AI 智能體也可能會以不可預見的方式相互作用，造成意外事故。

爲此，人類目前需盡快從 AI 智能體開發生産、應用部署後的持續監管等方面全鏈條着手，及時制定相關法律法規，規範 AI 智能體行爲，從而更好地預防 AI 智能體帶來的風險、防止失控現象的發生。

展望未來，AI 智能體有望成爲下一代人工智能的關鍵載體，它将不僅改變我們與機器交互的方式，更有可能重塑整個社會的運作模式，正成爲推動人工智能轉化過程中的一道新齒輪。