作者 | 朱世耘
編輯 | 邱锴俊
"未來經過充分驗證之後,我們不做(感知結果和地圖信息之間的)二選一了,我們相信這個(實時感知的)結果。" 毫末智行技術副總裁艾銳向《電動汽車觀察家》表示。
2022 年,很多智能駕駛的頭部玩家都提出要在城市領航中 " 重感知、輕地圖 "。但最後身體誠實,最後落地的方案仍需在高精地圖适用範圍内運行。
城市領航能否脫開地圖?毫末認為是可以的。
2025 年中國高階輔助駕駛搭載率将達到 70%。2023 年,僅依靠普通導航地圖的能力的毫末城市 NOH 将在車型上量産上市,預計 2024 年上半年落地城市達到 100 個。
同時,毫末智行董事長張凱表示,以重感知技術為主,主要依托視覺方案的智駕系統将可以在中低算力的車端平台上部署,這将使得高級别智能駕駛系統有可能成為中端價位車型的标配。
2022 年搭載毫末城市 NOH 的魏牌摩卡激光雷達版曾與華為、小鵬争奪城市領航功能的首發名額,但最終未能成型。如今毫末又立下 2024 年的百城目标,是否又會是一個 " 宣傳話術 "?更重要的是,城市領航要如何脫開地圖?
01
泛化前先輕地圖
盡管目前華為、小鵬面向小批量客戶推送的城市領航功能仍需采用高精地圖,但 " 輕地圖 " 仍是行業共識。華為将于今年年中推出類似衆包模式的輕地圖方案,小鵬汽車也表示 XPILOT 4.0 在實現初步閉環後,會采用輕地圖方案。
之所以要 " 輕地圖 ",一方面是由于高精地圖的鮮度問題。
目前高德、四維圖新、百度等企業已經能夠提供覆蓋全國高速公路、全國城市快速路甚至普通城市路段的高精地圖。但大部分一季度一更新的 " 鮮度 " 完全無法滿足城市領航的需求。
而且,在高精地圖政策要求下,目前隻有北京、上海、廣州、深圳、杭州、重慶等六大城市開展智能網聯汽車高精度地圖應用試點。
另一方面則是成本問題。
目前包括華為在内多家智能駕駛玩家擁有甲級或乙級地圖測繪資質,但高精地圖繪制成本高昂讓人望而卻步。
作為參考,2018 年,美國無人駕駛汽車高精地圖技術公司 DeepMap 連續投資 4.5 億美元用于開發。此外,MapBox、Carmera、Civil Maps 等企業的開發費用也在 2.272 億美元(2017 年),2000 萬美元、1700 萬美元不等。
這樣的成本顯然與大規模落地智駕功能,獲得大量數據推動系統叠代的發展模式相悖。
張凱告訴《電動汽車觀察家》,毫末對中端價位車型的定義是在 12-15 萬元和 15-25 萬元價格區間内的車型。毫末在下一代智能駕駛平台的計劃中布局了中低價位車型适配,其中 1500 元左右的成本能夠實現行泊一體,高速 HWA(LCC 類功能);2000 元左右的方案則可以實現高速 NOH 的功能。
這樣的成本對感知和計算硬件價格就提出了較高的要求。
艾銳表示,毫末計劃未來在 20-30Tops 算力的平台上實現一定精度的 NOH 功能。
為此,需要新的使用地圖的方式。
地圖有兩種用法:一種是顯式的,先建成離線地圖用于實時調用,作為先驗信息供系統決策時使用。當感知結果和地圖信息不吻合時,系統需要按照預先設置的邏輯規則:如果怎麼樣就信誰,進行二選一的選擇。
另一種則是隐式的,将普通地圖信息作為先驗輸入到模型裡,讓模型去糾錯。好比人類開車時不會看到死胡同後,還繼續聽從導航前進的指令。
"所以我們希望的是模型具有這個能力由此可以避免二選一。(隐式的)方法理論上來說天花闆更高,但是難度更大。" 艾銳表示。
未來,毫末會在落地城市内畫出一片區域,明确告知是否可以激活城市領航功能。其區域範圍或許基于區域内的數據量和道路複雜度來決定。
02
核心算法的進步支撐
核心算法的進步是毫末關于立下 2024 年百城落地城市領航的基礎。
在近期的 AI DAY 上,毫末發布了 MANA 的視覺自監督、多模态互監督、3D 重建、動态環境,以及人駕自監督認知五大模型。
其中,多模态互監督大模型和動态環境大模型是應用于車端,改進毫末 MANA 感知框架的大模型。
多模态互監督大模型從效果上類似于特斯拉在去年發布的占用網絡模型,其核心通過視覺數據來對周圍空間進行實時建模,構建出隻有長寬高這樣的結構信息,但沒有 " 公交站 "、" 水馬 "、" 乘用車 "、" 行人 " 這樣語義信息的空間結構。
由此可直接規避道路上已經被占用的位置,規劃出可行駛的行車空間。
其中,由于不用對感知到的是什麼進行判斷,可大幅減少對車端實時的算力需求,甚至是攝像頭的精度需求,由此可在低成本的感知和算力平台上落地。
但另一方面,視覺隻能給出 2D 信息,要加入深度和時間信息,就對數據量和模型調優提出的很高的要求。
此外,毫末的多模态互監督大模型和特斯拉的占用網絡在實現方法和效果上也有一定的不同。
特斯拉完全采用純視覺來實現,毫末則引入了能夠直接獲得 3D 信息的激光雷達信息來對視覺感知的結果進行監督。
艾銳表示,毫末希望未來能夠使用純視覺來實現和激光雷達一樣的效果。" 雖然這輛車上沒有激光雷達,但是這個結果跑出來,相當于裝了一個高線速的激光雷達一樣。"
動态環境大模型則類似于特斯拉的語言車道線模型,通過對 " 看到 " 的道路進行語義理解,由此推斷構建出實時的道路拓撲結構。
由此,模型可以像熟悉路況的老司機一樣,在預先知道大概的路徑規劃和方向後,就可以根據自己看到的實際路面情況來進行實時的規劃行駛,徹底脫開高精地圖的束縛。
艾銳表示,在經過充分驗證後,毫末希望未來動态環境大模型能夠作為置信方,對地圖信息進行矯正。" 在計算機領域,如果你有充分數據的時候,你會發現讓模型去做選擇可能會比你總結的規律更合适。"
毫末官方表示,目前在保定、北京,毫末對于 85% 的路口拓撲推斷準确率高達 95%。
目前,動态環境大模型還在雲端訓練,尚未落地車端。
03
大規模投入基礎設施
想要依靠多模态互監督和動态環境大模型實現對激光雷達、高精地圖的依賴,前提是大規模的基礎設施投入。
大模型指參數達到 10 億級甚至更高的神經網絡模型,可以處理更加複雜和多樣化的任務。但同時,大模型需要海量數據進行訓練,而且因此模型和參數龐大,要想高效得完成訓練,就需要巨大的算力和計算速度才能施展開來。
為此,特斯拉不僅進一步加強其數據标注的自動化閉環,還自建的名為 " 道場 "(DOJO)的大型智算中心。
同樣想走低成本、普适性路線的毫末也建立了相類似的基礎設施體系。
毫末建成了智算中心—— " 雪湖 · 綠洲 "(MANA OASIS),每秒浮點運算達 67 億億次,存儲帶寬每秒 2T,通信帶寬每秒 800G,百億小文件随機讀寫延遲小于 500 微秒,以适應大模型訓練對數據量、吞吐速度和計算效率的要求。
小鵬汽車發布的智算中心扶搖每秒浮點運算 60 億億次。神威 · 太湖之光超級計算機的峰值性能為 12.5 億億次 / 秒,持續性能為 9.3 億億次 / 秒。
67 億億次的浮點算力,按照英偉達 A100 每片 3.2 萬美元的價格計算,成本約 10 億元左右(人民币彙率按照 6.8 計算)。
毫末此前與阿裡雲合作智算中心,此次自建可見其決心。
自建智算中心之外,毫末還通過達模型對數據處理能力進行提升。
視覺自監督大模型一方面實現了包含時間标連續幀夾的一次性 4D 标注,而且對此前未進行連續标注的單幀數據進行了完善标注,将标注成本降低 98%。
3D 重建大模型能夠對真實場景進行仿真重建,在其中獲得海量 corner case(長尾場景)。
人駕自監督認知大模型則類似于影子模式,通過人類駕駛員的接管反饋,訓練出更加拟人化的架勢策略。
張凱介紹,毫末除了長城體系内的客戶,已與其它品牌客戶達成合作意向。目前毫末仿真工作在研發過程的覆蓋率超過 70%,研發效能較兩年前提升了 8 倍;在工程化中,可以做到智能駕駛産品 100% 的一次性過線率。
--END--
你的 " 點贊 " 和 " 在看 " 對我們很重要