今天是理想汽車成立 8 周年的日子,李想在周五發布了全員信,稱理想汽車 2025 年的目标是做到中國豪華品牌第一,銷量到一年 160 萬輛。
支撐李想這一判斷的不僅是今年上半年以來不斷攀升的銷量、組織變革的結果,還有理想汽車在自動駕駛方面超乎預期的進展。
家庭科技日上,理想汽車不僅發布了智能空間的 MindGPT,還公布了智能駕駛的新進展。理想稱會在年底多個城市開放不依賴于高精地圖的城市 NOA,以及推出不挑路段的通勤 NOA。
關于這次理想汽車的城市 NOA,核心的邏輯是通過和清華研發的神經網絡 NPN、自研的 TIN 信号燈識别網絡以及 Occupancy(占用網絡)去彌補原有 BEV 算法識别的局限。不過,理想汽車和清華隻合作了 NPN 網絡,對方提供理想研究和小範圍的實驗數據,有關很多工程化部分都是由理想汽車自己的團隊去進行落地。
雷峰網體驗了早鳥測試版的城市 NOA,總體體驗超乎預期,除了出現 1 次在施工道路的人爲接管、1 次樹影誤識别以及在道路中心歸控偏保守之外,其他的操作都很流暢,尤其是路口信号燈的識别以及對周邊車輛的預測上,識别都很精準。
一、去圖化的開始
在高精地圖還沒有變成自動駕駛瓶頸之前,市面上做自動駕駛的路線大概可以分爲三種:1)以特斯拉爲代表的純視覺、強感知的路線;2)科技公司:視覺 + 高精地圖;3)視覺 + 激光雷達。
以前理想汽車選擇的是利用高精地圖 + 規則的方式去做自動駕駛,高精地圖精度、數據維度都比較高,能給自動駕駛提供的信息很豐富;作爲輔助作用的規則也可以在限定場景下很好地去解決場景内可能存在的情況。
基于高精地圖的這套自動駕駛方案,優點是能在短時間内比較快地做到一套基本可用的城市 NOA 功能,但是這種做法并不可持續。
暫且先不提制作成本高、更新頻率低、人力耗費巨大、高精地圖資質收緊(隻有拿到甲級測繪資質的廠家才能進行自動駕駛數據采集)等這些客觀層面的因素,采用高精地圖做自動駕駛方案的廠商,在擴大城市 NOA 覆蓋範圍時會遇到很大的難關。
國内的城市裏程包括一級、二級的鄉道、省道、國道基本上能達到 1000 萬公裏,按照高精地圖的思路,從一、二線城市擴大到三、四線及以下的城市用戶都能用得上的話,需要一個城市接着一個城市做路測。
傳統高精地圖路測的過程是用搭載一系列高精度傳感器的數據采集車在城市裏來回開,把收集來的點雲數據用 Slam 的做法做數據的拼接和配置,配置結束後會得到一份高精度的點雲地圖,點雲地圖并不能直接用來做自動駕駛,還需要一個人類地圖标注員把地圖上的每一個元素進行人工标注。
理想汽車自動駕駛研發負責人郎鹹朋在接受采訪時說," 如果有一張高精地圖,覆蓋了中國所有的道路,每分鍾就能更新一次,而且還很便宜,1 塊錢就能用一天,我肯定會非常贊同使用高精地圖。"
由于高精地圖的局限性,理想汽車也加入了 " 去高精度地圖 " 的大潮。
二、NPN、Occupancy、TIN
目前理想所采用的算法路線,簡單來說,也是和特斯拉一樣,即基于 Transformer 的 BEV 算法,再加上 Occupancy(占用網絡)去解決感知問題。
BEV 算法分爲靜态 BEV 和動态 BEV 算法。靜态 BEV 感知的是物理世界裏相對靜态、變化不大的車道線和道路結構;而動态 BEV 感知的便是道路上不斷變化的交通參與者,例如人、騎車人,車等物體。
但是靜态 BEV 算法在複雜路口的實時感知狀态由于目标很多、傳感器的視野容易被遮擋,導緻車端的感知結果會丢失一部分局部信息而不穩定,抖動會比較嚴重,這樣一來會影響到車輛在複雜路口的誤判。
爲了補足靜态 BEV 的感知不足,理想汽車和清華大學一起研發了 NPN 神經先驗網絡(Neural Prior Net),這一網絡處理的就是超出感知範圍或者視野被遮擋的複雜路口,它提取的道路參數的結果,并不是給人看的,而是給後台的 AI 司機看的。
NPN 對 BEV 算法具體補充的過程是,利用大量用戶車隊在複雜路口的多次曆史軌迹,提取他們在該路口所做的行爲特征,形成特征庫,保存在雲端和車端。同時車端和雲端之間可以相互更新,雲端的特征庫會跟車端進行實時的融合,以此還原出更好的展示結果。
值得一提的是,NPN 提取的道路特征對人來說并不可視(即人沒法看懂圖上的這些東西分别代表了什麽),隻識别車周圍的高精地圖,而非整個城市的高精度地圖,所以也不涉及地理采集、地理信息等數據安全的問題。(不過新智駕獲悉,目前理想汽車内部也在積極推動資質問題的落地。)
除了靜态的車道線、道路結構,以及不斷變化的交通參與者之外,還有一些 " 通用障礙物 ",即那些不需要區分類型但仍然需要避讓的元素。爲了解決這類非标物體的感知,理想汽車采用的是用 Occupancy 網絡去還原障礙物的物理面積,來達到避讓的作用。
但是解決了道路信息的感知之後,還需要解決信号燈的識别。
識别信号燈的紅綠、位置并不難,難的是去找到信号燈和道路的匹配關系,即車燈到底對應哪個車道。
以前在依賴高精地圖的時候,地圖給出足夠詳細的匹配度之後,駕駛員隻需要通過視覺方法去識别自己行駛道路上應該對應哪個車道即可。
但是如果道路出現臨時情況,比如施工等,高精地圖沒有及時更新的話,依靠高精地圖的自動駕駛的感知就會出現問題。
對此,理想汽車采用了 TIN 信号燈意圖網絡去解決這一問題,即利用 NPN 特征提取大量人類司機在路口對于信号燈的行爲特征,再去告訴車輛應該怎麽走。
一句話總結,目前理想汽車的自動駕駛路徑是:
自動駕駛的算法依然是基于 Transformer 大模型的 BEV 感知算法,隻不過現在這套算法更先進了。理想汽車的做法是,用 NPN 網絡去規避掉靜态 BEV 算法在複雜路口的不穩定性,用 TIN 網絡解決信号燈與道路的匹配關系,用 Occupancy 去識别道路上的非标且需要避讓的物體(動态 BEV 可以識别标準物體)。
三、落地 100 城的底氣:影子模式、數據閉環系統、數據量
在車端訓練了模型并不代表可以直接将自動駕駛直接落地到某一個城市。
在一個城市做自動駕駛算法的落地,必須要經過測試和驗證,以保證産品、系統的功能安全和穩定。
一般來說,驗證有兩種方式,一種是靠路測,另一種便是特斯拉提出的 " 影子模式 "。
影子模式,簡單說,就是通過捕捉、收集每一個用戶車在實際駕駛過程中遇到的路況信息,将相關數據回傳以進行算法訓練。
這個模式的好處就在于,量産車就等于是數據采集車,上路的車輛都可以進行模型測試和數據采集,一來既可以在短時間内積累海量的自動駕駛行駛裏程數據,二來也可以讓自動駕駛模型學習到真實人類的駕駛行爲習慣。
今年上海車展,理想汽車發布雙能戰略的同時,稱會在年底在 100 個城市落地理想的輔助駕駛。業内人士此前對這一目标并不抱有希望,說 " 落地 100 城,連路測都做不完。"
雷峰網請教了理想汽車自動駕駛産品總監趙哲倫,對方稱 " 本質上還是研發體系的問題,如果所有落地都得靠路測,不能去做影子模式的驗證,算法訓練過程如果還有很多人工标注的部分,效率會慢很多。"
理想汽車落地城市 NOA 的做法是少量的路測加上大量的影子模式。
對于神經網絡算法來說,數據就是它的養料," 影子模式 " 爲它提供了源源不斷的養料,去幫助其不斷成長與成熟。影子模式要發揮最大的作用,核心在于得發掘、回收數據的價值,即高效、快速正在海量數據中有效的調取标準化數據。
在數據使用上,有兩個維度的能力十分重要,一是數據閉環,沒有閉環,自動駕駛數據的有效性就無法得到驗證。二是在數據閉環的基礎上,需要實現數據的高效挖掘和運轉。
理想内部在獲取數據、處理數據以及應用數據有一套完整的流程,内部叫做數據閉環系統,或者說數據驅動系統。
趙哲倫告訴雷峰網,這一套系統在驗證影子模式的完整過程是:首先得自動挖掘有用的數據,其次便是自動化的标注、自動化的訓練,再到自動化驗證,閉環驗證通過之後才會 OTA 到車上。
這一數據閉環系統的優點是能通過自動化的方式去讓平台不斷進化。
有了數據閉環系統還不夠,還需要有大量的用戶數據。此前雷峰網層報道過,郎鹹朋在赴美宣講時提到,衡量自動駕駛有 3 個維度——算法、算力和數據,最後拉開差距的是數據量。
算法大家基本上 follow 特斯拉的路線,算力上的差距也不大,已經公開的有小鵬(600 PFLOPS)、吉利(810 PFLOPS)、毫末智行(670 PFLOPS),理想在家庭科技日上公布了目前算力在 1200 PFLOPS。
在前三個要素都拉不開差距的情況下,數據将成爲關鍵,而這是理想的優勢。6 月即将進入尾聲,理想三周的銷量已經達 2.73 萬輛,遠超蔚來(0.8 萬輛)、小鵬(0.64 萬輛)。
車賣得多,自動駕駛也不收服務費,每一輛賣出去的在路上的跑的理想汽車,都在給理想訓練自己的自動駕駛收集足夠多的數據。
事實上,理想汽車在推出現階段的城市 NOA 之前,上半年才把和清華一起合作的研究方案落地,實際測試也隻花了 3 個月。
正是因爲有了完整的數據閉環訓練系統以及大量的用戶數據,才能讓趙哲倫在回答新智駕的疑問時有這樣的底氣,"3 個月的測試時間并不短。"
四、" 黑盒子 " 的端到端:隻能等待模型自己進化
行業裏,新勢力的自動駕駛研發之路,理想研發要比蔚來、小鵬研發都要晚,朗鹹朋在家庭科技日上說," 今年相信大家會對理想汽車的自動駕駛産生改觀。"
在理想汽車自動駕駛産品總監趙哲倫看來,後發并不等于落後,後發有後發的優勢," 拿 AD(自動駕駛)來舉例子,當 AD 本身的整體架構性還沒有那麽成熟的時候,這個時候做大量的投入會被浪費掉。後發因爲找對了方向,可以省去大部分探索的時間。"
這點可以從另一個側面得到印證。
特斯拉是自動駕駛研發的前驅,在發現算法并不能達到理想結果的時候,自己重寫了一遍算法。在特斯拉之後,包括小鵬、理想和蔚來在内的車企以及華爲等自動駕駛方案提供商,都對自己的算法架構進行了重寫,且都采用了特斯拉 Transformer+BEV+Occupancy 的算法路徑。且由于後發優勢,蔚小理三家架構重寫的時間都要比特斯拉短。
不過,理想汽車自研的 TIN 信号燈網絡也有一定的風險。
傳統的感知算法是用數學的方法去做,采用的是一種叫做卡爾曼濾波的融合算法,就是這種算法把衛星送上了天、完成了火箭的發射,是一種比較穩定、可靠的算法。它的弊端就在于,如果事物不符合高斯分布(所有帶有誤差的東西就是帶有随機性的東西,産生的誤差都是一條弧線,而且這個弧線是對稱的),它就會失效,表現在自動駕駛上,就會出現非常多的 corner case(小概率事件)。
人類寄希望于大模型去解決所有的 corner case,但大模型也有弊端。作爲一種端到端的大模型,TIN 信号網絡也不例外。
人工智能有典型的三層架構,即輸入層、輸出層和中間層,幾十年前因爲算力不足,中間層隻能構建一到兩層;而現在中間層已經發展成爲無數層級。深度學習的方法是給輸入層喂海量的數據,同時給輸出層去喂正确的答案,中間層不斷調整參數,以使得輸出結果和正确答案無數接近。
一位自動駕駛專家告訴雷峰網,"端到端的模型本身是一個無法解釋的黑盒子,模型内部怎麽運作的人并不知道,隻有通過不停地給它喂數據,寄希望于有一天模型成長得比卡爾曼濾波(傳統的感知算法)更強。"
而理想汽車這裏提到的 TIN 網絡,它不僅涉及感知(感知到路口信号燈的變化),也涉及規控(根據實時感知到的情況告訴車輛往哪走),但因爲它是端到端的大模型,無法保證對未知的物體一定适用,也無法保證對某一個具體的問題做定向的修正。黑盒的整個決策過程不可推導也不可細分,一旦出現問題,研發人員并不能找出問題的存在。
在《當我們在談論端到端自動駕駛時,我們在談論什麽?》一文中有提到一般情況下輔助駕駛出現 bug 的改進過程:
假設出現了一次誤刹,經典的自動駕駛技術棧會分析:刹車指令的來源,是前方動态障礙物還是靜态物體?或者是規劃模塊的速度規劃出現了問題?或者是在控制模塊在輸出正确的情況下,控制指令出現了問題?
分析之後,就會對具體出現問題的部分進行定向優化。
但是端到端的模型就隻能通過喂大量的數據,幫助它更好地做出符合目标的決策,找不到是在哪個環節上進行優化改進以及具體應該提供哪些數據進行定向優化。
不過,依然不能否認理想汽車在這件事情上的開辟作用。拿着剛研發的結果去落地,不确定性很強,不少人會覺得理想汽車的做法很激進。
一位業内人士告訴雷峰網,選擇把學術上一些前沿的技術方案進行工程化落地,本身就需要勇氣。理想的做法很像特斯拉," 特斯拉最牛的一點就是能用最快的速度把學術研究成果進行工業化驗證和落地,讓其價值發揮出來,即使最後代價會比較大。"