
我們希望 MindVLA 能爲自動駕駛車賦予類似人類的認知和适應能力,将其轉變爲能夠思考的智能體。就像 iPhone 重新定義了手機,MindVLA 也将重新定義自動駕駛。
3 月份的新車和新技術鋪天蓋地,各家車企你追我趕,讓人目不暇接,甚至産生了新品一經發布就已落後的錯覺。
這不,就在近日,理想在 NVDIA GTC 2025 上分享了自家 MindVLA 技術的最新進展,聲稱要「像 iPhone 4 重新定義手機一樣,重新定義自動駕駛」。

撇開複雜的技術原理和實現方式不談,理想 MindVLA 技術的最大價值在于将車輛用戶體驗提升到了全新的高度。
分享會上,理想用一句話總結了新智駕系統的能力——這套全新的智駕系統将成爲每個人的專職司機。
這位專職司機能做到哪些事情呢?我想到了以下幾個場景:早上從車庫把車開到家門口接我,省去我下樓去地庫取車的麻煩;到公司門口放我下車後,自動尋找車位停好,不用我四處找車位;當我要去商場或咖啡廳時,自動尋找合适的目的地,無需我手動選擇導航。最關鍵的是,它能定位到我所在的位置,自動來接我。
理想将這些場景概括爲三個詞——「聽得懂」、「看得見」、「找得到」。

「聽得懂」意味着用戶可以通過語音指令改變車輛的路線和行爲。這不僅将車機的語音互動從空調、座椅等座艙功能擴展到了具體的駕駛操作,更讓用戶成爲副駕駛,能夠 " 教導 " 車機向左轉、向右轉或加快速度。
「看得見」指的是 MindVLA 具備出色的通識能力,可以識别周邊的商店招牌和标志性地點。理想舉例說明:當用戶在陌生地點找不到車輛時,隻需拍攝一張周邊環境的照片發送給車輛,搭載 MindVLA 的車輛就能識别照片中的位置,自動找到用戶。
「找得到」主要應用于停車和園區漫遊場景。最典型的例子是在地庫尋找車位時,用戶隻需對車輛說:「去找個車位停好」,車輛就會自主搜尋可用車位,而且整個過程無需依賴地圖或導航信息。

「專職司機」看起來在園區和地庫場景表現的不錯,那麽理想如何确保它在公開道路上也遊刃有餘呢?
衆所周知,國内的道路情況十分複雜,除了到處亂竄的電動車和高強度的人車博弈外,還有以下幾個特點。
一是公交車道的廣泛使用。這些車道的标識方式和使用規則極爲多樣,包括地面文字标識、空中指示牌和路邊标牌。不同區域會用不同的文字形式說明時段限制,且經常會出現新增的公交車道,或因施工導緻的标識模糊。
二是近年來各大城市出現的動态可調車道和潮汐車道,以及爲充分利用路口空間而設置的待轉區、待行區。這些區域的使用時機由各類信号燈或 LED 文字牌控制,且設備每天都可能面臨新增、故障或維護情況。

因此在中國,自動駕駛系統不僅要應對複雜的人車互動,還需要具備文字理解能力、常識判斷和強大的邏輯推理能力。
特斯拉近期推送的 FSD 就因在這些場景中表現欠佳而飽受批評。
爲應對這些挑戰,理想采用了雙系統框架作爲解決方案。
簡單來說,理想将模型分爲兩個系統:快思考(系統 1)和慢思考(系統 2)。 車端通過端到端模型實現快系統。這是一個單一模型,可直接将傳感器輸入轉換爲駕駛軌迹輸出,類似于人類的直覺反應。該系統通過模仿人類駕駛行爲來應對各種場景,完全基于數據驅動,無需人爲設定規則,也不依賴任何高精地圖或先驗信息。它具有極高的訓練和執行效率。

慢系統則依托于一個 2.2B 參數規模的視覺語言大模型(VLM)。在需要文字理解、常識判斷和邏輯推理的場景中,VLM 通過思維鏈(Chain of Thought, COT)進行深入分析,作出駕駛決策,并指導快系統執行。 端到端模型(系統 1)和 VLM 模型(系統 2)各自運行在一顆 OrinX 芯片上。
簡而言之,通過這樣的技術架構,搭載 MindVLA 功能的理想汽車不再僅僅是一個駕駛工具,而是一個能夠與用戶溝通并理解用戶意圖的智能體。
智能體或個性化生成式智駕方案已經成爲各家車企和供應商對未來技術路線的共識。極氪和卓馭昨天也在各自的技術發布會上不約而同地提到了相關内容。
由于目前還沒有搭載這類系統的實車上市,我們無法評估其實際使用效果。不過根據各家的計劃表,這些系統有望在今年内實現量産。屆時,董車會将第一時間爲大家進行實測體驗。