從具身智能到車路雲，誰是智能時代下一站？

文 | 極智 GeeTech

詩人艾略特所言：" 我們不停止探索，最終所有的探索都将回到起點，并且對這個起點有了新的認識。"

發生在距今 5.2 億年前的寒武紀生命大爆發是地球生命史上裏程碑式的演化事件，其規模和強度前所未有，與之前生命世界形成截然不同的反差，更是深刻影響了後來地球生命史的發展，開啓了通向現代生物多樣性的浩瀚遠征。

2024 年，可以算是科技界的 " 寒武紀 " 大爆發之年，具身智能、自動駕駛、大模型、車路雲一體化等衆多新技術在這一年相互交彙、彼此融合，并釋放出巨大的技術應用潛力和極具想象力的商業化前景，不僅打開了通往未來世界的大門，也爲産業升級找到了進階之路，讓人們看到了數字未來的無限可能。

具身智能通往 AGI 的野望

從圖靈測試到深度學習，從專家系統到大語言模型，人工智能的每一次進化都在拓展着人類對智能的理解邊界。人工智能與具身智能的結合，一直是行業領域研究探索的重要方向。

繼大模型後，具身智能成爲今年科技界的新熱點。通過賦予人工智能以具體的物理實體（如機器人和自動化設備等），具身智能可以與現實世界進行交互，被認爲是推動通用人工智能（AGI）發展的關鍵技術。比亞迪、華爲、廣汽集團以及美團、阿裏巴巴、騰訊等企業都已親自下場，欲在這片混沌初開的市場中搶占一席之地。

作爲該領域最具代表性的實體，人形機器人正在大模型催化下加速産業化落地。目前業内普遍認爲，人形機器人是具身智能落地的最佳硬件載體。

高盛數據顯示，在理想情況下，預計到 2035 年，人形機器人市場空間有望達到 1540 億美元，約合 11037.3 億元人民币，這一規模相當于 2021 年智能手機市場的三分之一。花旗銀行發布的最新報告預測，到 2050 年，全球人形機器人市場規模将達 7 萬億美元，全球人形機器人數量将達到 6.48 億台。

如果将大模型視爲 " 有趣的靈魂 "，" 具身智能 " 賦能的人形機器人則有了 " 好看的皮囊 "，大模型與機器人快速融合正在成爲具身智能持續進化的必然趨勢。

2022 年 8 月，谷歌 PaLM-SayCan 首次将語言模型與物理機器人結合，通過預訓練在大型語言模型中提取知識，讓機器人依據高級文本指令完成物理任務。

随後，機器人與大模型的融合逐步加深。2023 年 7 月，谷歌 DeepMind 推出了 Robotics Transformer 2（RT-2），是全球第一個控制機器人的視覺 - 語言 - 動作（VLA）模型。RT-2 可使機器人直接通過拍攝或感知環境的方式獲取視覺信息，并理解人類語言指令，然後通過動作執行模塊進行相應的動作操作。

2024 年 3 月，Figure 發布 OpenAI 大模型加持的機器人 Figure 01，Figure 01 采用端到端神經網絡，由 OpenAI 大模型提供高級視覺和語言智能功能，神經網絡進行底層的控制，能夠與人類進行對話交互，理解并執行人類指令。

雖然人形機器人在 2024 年取得了 " 技驚四座 " 的進展：優必選人形機器人 Walker 聚焦汽車、3C 等制造業重點領域，已進入多家車廠實訓；宇樹科技機器人實現了完全仿人的自然行走；波士頓動力的新版 Atlas 機器人可在工廠裏不同儲物櫃之間絲滑搬動零件；特斯拉人形機器人擎天柱（Optimus）計劃在 2025 年量産……

但正如波士頓動力創始人 Marc Raibert 所說，目前人形機器人 " 在某種程度上是一種炫耀，而不是一種生産力 "。具身智能固然是通往 AGI 大門的一把鑰匙，但目前行業還是沒有找到使用這把鑰匙的正确方式，并且低估了 AGI 的實現難度。

不同于快速收斂的大模型，具身智能涉及的模态空前複雜，需要同時具備多模态感知、具身決策與規劃和操作執行能力，在發展過程中仍面臨多項挑戰。

首先，是要适應非結構化真實環境。與預設規則和模式驅動的傳統人工智能系統不同，具身智能必須在一個充滿複雜性和不可預測性的非結構化環境中找到立足點。在這種環境中，信息的稀缺和場景的多變性，要求人工智能系統具備更加先進和靈活的計算能力，以便能夠适應環境的不斷變化和不确定性。

其次，是要發展更高級的認知策略。在自然界中，生物體通過視覺、聽覺和觸覺等多種感覺途徑獲得複雜的感知信息，并在大腦中進行有效的多模态信息融合。具身智能同樣需要模仿這種高效的多模态融合過程，以更全面地理解和适應其所處的環境。

第三，湧現式創新與突破的缺乏影響着具身智能的進化程度。生物群體能夠展現出令人驚歎的集體智慧，主要歸功于其中個體之間的協同作用。對具身智能來說，一個重要的挑戰是模仿這種群體智能系統。這意味着需要将智能分散到多個實體中，并通過它們之間的協作，實現更高級别的認知和決策能力，以實現分工協作和動态任務分配，從而能夠更靈活地應對多種情境。

第四，具身智能在與真實環境進行交互并充分學習時，勢必會收集和處理大量數據。這就引出了一個關鍵問題：如何在實時交互中确保這些數據的安全性和隐私性，同時具身智能在決策時還需要考慮倫理和道德問題，以确保其行爲符合道德原則和社會價值觀。

具身智能的發展不僅是技術革新的過程，更是對人類理解、倫理道德和社會影響的深思，相關研究在推動科技邊界的同時，還将深刻影響人類社會的方方面面。

智能駕駛的夢想照進現實

當自動駕駛汽車的夢想在 20 年前被點燃時，誰能想到這條道路會如此坎坷？美國國防部高級研究計劃局（DARPA）發起的挑戰賽仿佛打開了一個新世界，激發了無數科技公司的熱情。然而，現實卻遠比想象中複雜。

縱觀自動駕駛技術的發展曆程，人工智能的不斷突破顯著提升了自動駕駛的感知性能。從卷積神經網（CNN）的引入，到循環神經網絡（RNN）的應用，再到結合鳥瞰圖（BEV）與 Transformer（自注意力機制的神經網絡架構）的創新，新技術的叠代湧現在不斷增強自動駕駛的精确度與安全性。

尤其是在 "BEV+Transformer" 與 OCC（占用網絡）之後，端到端（End-to-End）自動駕駛技術開始受到廣泛關注。可以看到，2024 年高階智駕産品渴望商業成熟，但仍處于技術劇烈變革階段。

随着神經網絡智駕算法的崛起，自動駕駛進入數據驅動時代，通過大量數據訓練出能夠高度模拟人類駕駛習慣的人工智能，在達到一定的仿真阈值後，得出一套根據可靠性和符合人類乘車習慣的系統。

随着智能駕駛技術的不斷成熟，車企逐步加大了在智能駕駛領域的投入。特斯拉、蔚來、小鵬、理想等廠商在智能駕駛技術的研發上已形成了自己的技術路線。

特斯拉通過影子模式進行數據收集，将系統決策與駕駛員行爲不斷進行比對，當兩者不一緻時，系統将場景判定爲 " 極端工況 "，進而觸發數據回傳。因此特斯拉收集的數據越多，對于人類駕駛習慣的模拟就越精準，進而加速特斯拉 FSD 的車端部署，形成數據閉環。

蔚來通過引入高精地圖和 Lidar 技術，打造其獨特的 NAD 系統；小鵬則在其 XNGP 系統中引入了輕量化的傳感器方案，并計劃在未來通過端到端大模型進一步提升系統性能。華爲則通過與多個整車廠商的合作，推動其 ADS 系統的廣泛應用。各大整車廠商在智駕領域的戰略布局，将在未來幾年内決定市場的競争格局。

盡管智能駕駛技術已經取得了顯著進展，但在實現全面普及之前仍面臨諸多挑戰。首先，算法的可靠性和安全性仍需進一步提升，特别是在應對複雜的城市交通環境時，智能駕駛系統需要能夠處理各種突發狀況和極端條件。

其次，智能駕駛系統的性能高度依賴于算力與算法的優化。在端到端大模型的架構下，算力需求呈指數級增長，特别是在進行大規模數據訓練和實時決策時。爲了應對這一挑戰，業界正在探索基于雲計算和邊緣計算的混合架構，通過将計算任務分布在雲端和本地設備之間，以提高系統的響應速度和計算效率。

算法的優化也面臨着諸多挑戰。傳統的機器學習算法在處理長尾問題時表現不佳，而智能駕駛系統必須具備應對這些情況的能力。強化學習和生成對抗網絡（GAN）等新型算法在解決這些問題上展示出了潛力，但如何将這些算法應用到實際駕駛場景中，仍需要進一步研究和探索。

随着智能駕駛系統的普及，數據隐私和網絡安全問題日益突出。智能駕駛系統依賴于大量的傳感器數據和用戶行爲數據，這些數據的收集、傳輸和存儲都可能面臨安全風險。如何保護用戶數據的隐私，防止數據被非法獲取和濫用，是當前智能駕駛技術面臨的一個重要挑戰。

智能駕駛不僅是技術發展的新方向，更是汽車産業未來的重要增長點，2024 年是智能駕駛技術從高端市場走向主流市場的關鍵節點。車企在智能駕駛領域的布局，将在很大程度上決定未來的市場格局。

爲了将自動駕駛系統部署到更多車型上，模型壓縮和優化技術将成爲關鍵，我們将看到更加輕量級、高效的自動駕駛模型問世，這些模型将在保持性能的同時，大幅降低對硬件資源的需求。

車路雲新基建 " 加速器 "

如果說，具身智能和自動駕駛還隻是停留在場景應用層面，那麽車路雲一體化則是圍繞底層交通基礎設施智能化升級下的一盤 " 大棋 "。

車路雲網絡的本質是通感算網絡，其将通信、感知與計算深度融合，通過集成通信基站、衛星通信和定位、各類傳感器、雲控平台等關鍵基礎設施，形成一個信息共享、高效協同的網絡空間，成爲未來智能城市的底層系統。

作爲龐大的實時數據網絡，車路雲網絡可以大規模獲取實體世界的全局數字化信息，爲普通汽車、智能汽車、機器人、無人機、低空飛行器等智能設備提供系統級的實時數據服務，這些智能設備可以基于全局數據信息進行實時決策和精準規劃，實現更高效的協作。

同時，這些數據還可以用來反哺自動駕駛模型、機器人模型的訓練。比如可以根據不同城市特點，訓練最适合當地駕駛行爲的自動駕駛模型；根據不同工作和工種特點，訓練最适合不同工作場景的機器人。

當智能設備規模越來越大，最具合理性的方式一定是盡可能降低對單體設備在計算能力和實時感知能力方面的依賴，通過整個網絡來承載巨量的數據處理和計算分析。這将有助于推動數字智能社會進入到一個整合系統，也就是從單體智能設備變成群體智能系統，并将整合地面網絡、低空網絡、衛星網絡，形成空天地一體化的通感算網絡，爲智能體的大規模運行與自主交互協作提供重要支撐。

2024 年，是我國全面布局車路雲一體化的 " 元年 "。年初，工信部發布的《關于開展智能網聯汽車 " 車路雲一體化 " 應用試點工作的通知》提出，要建設智能化路側基礎設施，實現試點區域 5G 通信網絡全覆蓋，部署 LTE-V2X 直連通信路側單元等在内的 C-V2X 基礎設施。通過新一代移動通信技術将人、車、路、雲一體化，建立系統性數據平台，産業化規模落地應用，就是智能駕駛的 " 中國方案 "。

7 月初，工信部公布了 20 個城市（聯合體）爲 " 車路雲一體化 " 應用試點城市。車路雲一體化作爲優化交通運效率、提升城市治理水平的技術手段，其重要性日益凸顯，已成爲加速智能駕駛全面落地的關鍵所在。

10 月，工信部相關負責人在國新辦新聞發布會上表示，下一步将深入開展智能網聯汽車準入和上路通行試點、" 車路雲一體化 " 試點，穩妥推進自動駕駛技術産業化。

目前，中國已經形成相對成熟的車路雲一體化建設方案，主要由設備端、通信服務、雲平台、車路雲應用、車路雲安全等部分組成。其中，在政府機構主導的項目推動下，路側基礎設施及平台建設率先開展。

數據顯示，2025 年、2030 年 " 車路雲一體化 " 智能網聯汽車産值預計爲 7295 億元、25825 億元，年均複合增長率爲 28.8%。面向未來，車路雲一體化要以應用爲出發點，不僅賦能具有自動駕駛功能的車輛，還要着眼于存量的智能網聯汽車和普通汽車。

對此，要挖掘更多應用場景并形成可複制的方案。當前，車路雲一體化平台已經能夠對路端的設備信息、預警結果等數據進行較爲穩定的接入與處理，路雲已經基本實現協同連接，利用雲端多車數據進行交通智能調度管理、提高協作效率的場景将成爲主流，車雲協同也将迎來新發展。

同時，要進一步探索車路雲一體化更多商業價值。車路雲一體化市場規模的增長依賴于各城市車路雲項目的擴張和落地，對于技術服務商而言需要更多的 " 增長曲線 " 維持業務運轉。

一方面，通過基礎設施類項目向車端協議棧的滲透是可行方案；另一方面，将平台沉澱的高質量數據賦能車企等對數據有海量需求的終端用戶，也不失爲一種新的探索方向。

車路雲網絡最需要的是操作系統和算法，數據質量是推動整個産業向前發展的關鍵所在。車路雲網絡産生的數據能否給車輛使用以及如何使用是核心标準。

從數據應用角度，車路雲 " 數據上車 " 可以分爲五個階段：

第一，路側基礎設施建設階段。主要将 " 通感算 " 的硬件設備部署在路側；

第二，數據質量達标階段。針對單節點數據質量進行測試，可參考行業權威标準，比如信通院的 " 雙 SL3"；

第三，數據上車初級應用階段。通過車路雲系統，将信号燈數據、路側識别到的事件類數據賦能智能網聯車輛；

第四，數據上車高級應用階段。通過車路雲系統，将實時孿生數據賦能給智能網聯車輛和自動駕駛車輛，真正實現協同感知、協同決策；

第五，量産車型大規模應用階段。與車企進行量産車合作，保證車輛大規模接入車路雲網絡，并享受各類實時數據服務。

第五階段的實現，需要政府、行業組織、車企、車路雲技術公司等多方面開展協作，在政策、法規、标準等層面形成合力，共同推動數據上車大規模應用，最終讓人們真正享受到車路雲建設帶來的安全、效率、智能和便利。

此外，構建互聯互通的車路雲網絡形态有助于促進産業規模發展。随着國家層面政策推動與地方試點項目的成功經驗積累，車路雲網絡必将逐步擴展至全國範圍，形成覆蓋高速公路、城市道路、鄉村公路的全域智能交通網絡。

未來，車路雲一體化的定位将不再限于汽車産業本身，而是與交通、城市管理、通信等多領域深度融合的新型基礎設施體系，數據作爲 " 橋梁 "，構建起高效協同的多業務系統，從而全面提升城市的智能化、精細化管理水平。

每一次技術浪潮的來臨都伴随着泡沫，但這并不意味着我們應該回避。因爲在這泡沫之下，隐藏着無數的機遇。創新往往發生在邊界之外，但又在跨界之中，來源于那些看似無用卻能激發無限可能的探索。