快科技 3 月 18 日消息,理想汽車自動駕駛技術研發負責人賈鵬在 NVIDIA GTC 2025 上發表演講,分享了下一代自動駕駛技術 MindVLA 的最新進展。
據悉,MindVLA 是理想全棧自研的機器人大模型。

該模型整合了空間智能、語言智能和行爲智能,旨在将汽車從單純的運輸工具轉變爲貼心的專職司機,它能聽得懂、看得見、找得到。

該技術基于端到端和 VLM 雙系統架構,通過 3D 空間編碼器和邏輯推理生成合理的駕駛決策,并利用擴散模型優化駕駛軌迹,整個過程需在車端實時運行。
MindVLA 采用 3D 高斯作爲中間表征,利用海量數據進行自監督訓練,顯著提升下遊任務性能。

其 LLM 基座模型采用 MoE 混合專家架構和稀疏注意力技術,确保模型規模增長的同時不降低推理效率。

此外,MindVLA 通過 Diffusion 模型将動作詞元解碼爲優化軌迹,并結合自車行爲生成和他車軌迹預測,提升複雜交通環境中的博弈能力。

該技術還基于自研的重建 + 生成雲端統一世界模型,實現大規模閉環強化學習,優化場景重建與生成效率。

MindVLA 賦能的汽車可通過語音指令改變車輛路線和行爲,車輛還能通過照片識别用戶位置并自主尋找車位。
這一技術不僅将重塑用戶體驗,還将重新定義自動駕駛,爲汽車行業和人工智能領域帶來深遠影響。