端到端究竟該怎麽做,至今業内沒有答案
文 | 包校千
編輯 | 趙成
短短一年時間内,智能駕駛的主旋律從高速公路挺進城區道路,而近來車企高頻宣傳的 " 端到端 ",又讓參賽選手卷入到新的賽道之中。
" 端到端 " 之所以備受推崇,則要歸功于特斯拉的 FSD V12(特斯拉研發的自動駕駛系統)。其智駕的系統能力在短短數月間超越了過去數年的積累。憑借這一質的飛躍," 端到端 " 也被認爲是邁向完全自動駕駛的分水嶺。
實際上,端到端的第一端是感知端,如車輛的攝像頭、激光雷達輸入環境信息部分;第二端則是控制端,當車輛收集到環境信息後,要做出決策并對車輛行駛軌迹進行控制,讓車輛根據環境進行加減速或避讓等。因此,環境感知、決策規劃、控制執行,三個模塊形成了自動駕駛的底層操作邏輯。
但三者相對獨立,隻能依靠固定的語言和格式傳達信息,在處理上有些死闆,特别是在決策層方面,其各種決策依靠的是工程師提前設想和寫下來的規則,如果出現沒有提前寫下來的規則,決策層可能就會出現決策錯誤。另外,信息在三個模塊之間傳輸始終是有延遲的,并且有可能在信息傳輸的過程中導緻數據缺失,從而帶來一些安全隐患。
如今衆玩家比拼的端到端,則是通過大模型将感知、規劃和控制三個模塊集成起來,消除三者之間的界限,讓它們成爲一體。
在将三者整合之後,工程師不再需要寫規則告訴系統什麽是車道線、紅綠燈、交通規則等,直接抛棄規則,并運用大模型技術在大量的駕駛數據中學習人怎麽開車,尋找駕駛的規律。相比之前工程師寫下的規則,大模型學習之後能夠迅速找到更加符合場景的應對策略,讓車輛更似真人駕駛。
然而,當中國各路選手翻開特斯拉給出的端到端習題時,卻沒有任何參考答案和提示。對于智駕技術架構的摸索,大多數團隊都是從 2023 年才剛剛開始的。
在衆多參賽玩家中,理想是少數的激進派。其采用 "4D One Model" 的一體化決策網絡 , 即把感知決策合二爲一的 " 一段式端到端 " 技術方案。該方案可以實現從數據輸入到路徑輸出隻經過一個模型。而華爲、小鵬等企業所采用的則是 " 分段式端到端 " 的漸進發展路線。
爲了在智能駕駛領域拔得頭籌,從 9 月 10 日起,理想的部分車型正式升級爲新一代智能駕駛技術方案,即 " 端到端 +VLM(視覺語言模型)"。
" 從端到端開始,大家真正用人工智能的方式去做自動駕駛了,我相信或早或晚,頭部玩家一定都會做這個方向的。" 理想汽車智能駕駛研發副總裁郎鹹朋向我們表示。
01 從 " 城市 NOA"
轉向 " 端到端 +VLM"
和華爲、小鵬等智駕頭部玩家相比,理想一直處于追趕狀态。理想汽車董事長兼 CEO 李想曾放出豪言,其自研智駕系統在 2022 年完全可以和華爲、特斯拉正面較量,但其智能駕駛無論是在規劃能力還是橫向控制方面,一直定位在 L2 級别,遠未達到 L2++ 水平。
爲了補足智駕短闆,理想從 2023 年開始集中發力。從去年年初公司決定力推城市 NOA 年内落地。
盡管身爲新勢力銷冠,但當華爲在 2023 年 9 月宣布年底推出全國都能開的無圖方案後,一直徘徊在月銷數千輛的問界在短短一個月後便銷量破萬,年底更是沖上月銷 3 萬輛大關。這讓理想高層再次把智能駕駛的戰略提升了一個層級。在 2023 年三季度财報電話會上,公司高層表态稱,有信心在 2024 年上半年成進入 " 經過市場驗證的第一梯隊 "。
不過,在奮起直追的過程中,理想一直在變換智駕路線。
在 2023 年 4 月的上海車展上,理想提出了 " 年内百城通勤 NOA" 的目标。此後不久,不隻是理想,一衆車企不但直接宣布做到了量産,還比上了開城速度,宣稱年底就能在幾十城、上百城,甚至全國使用。但是在去年的成都車展上,理想言之鑿鑿的城市 NOA(針對城市交通環境開發的駕駛輔助系統)卻變成了以通勤 NOA(可以讓用戶設定自己的通勤路線,并通過日常通勤時的自動化訓練積累特征)來實現。
圖源 IC
和通勤 NOA 這種在限定路線範圍内的智駕方案相比,城市 NOA 要面對更複雜的路段、更多不确定的因素。在此之前,全行業的城市 NOA 基本都停留在 demo(樣本)階段,很多車企連 ODD 區域(全稱 OperationalDesignDomain,即運行設計域,是指針對自動駕駛及相關功能專門設計的運行條件,包括但不限于道路類型、行駛區域、速度、環境等)都沒跑明白。" 如果隻是在全國道路上吭吭咔咔地開起來,沒什麽難度,ACC(自适應巡航控制系統) 可以,LCC(車道居中輔助系統) 也可以,但如果想讓城市 NOA 在全國道路上開得好,那很難。" 小鵬汽車創始人何小鵬曾評價道。
從 2023 年開始,國内智駕頭部車企的競争轉向傳統的模塊化技術架構下,以人海戰術比拼開城速度。在此過程中,新造車企業的智駕團隊無一例外地擴充到千人規模,星夜兼程地訓練、測試、驗證,并攻克極端情況。
城市 NOA 之所以能成爲行業爆點,并演變爲一場激烈的開城大戰,很大程度上是因爲智駕已成爲消費者購買決策的主要因素之一。市場研究機構 J.D.Power 君迪發布的《2023 中國新車購買意向研究》顯示,智能化體驗在購車決策中的影響權重上升到 14%,成爲繼汽車質量和性能之後的第三大決策因素。
當然,理想狂補智駕作業不僅是爲了刺激銷量,還與李想本人對人工智能的執念有關。
在 2023 年初的内部信中,李想提到公司的願景是 " 到 2030 年成爲全球領先的人工智能企業 "。久未露面的李想,在出席今年 6 月舉辦的中國汽車重慶論壇時,也分享了對于自動駕駛技術路線的新思考。
他認爲,如果自動駕駛團隊每天幹的活都是靠人工去調試各種各樣的 cornercase(極端情況),那麽人越多,cornercase 就越多,離真正的自動駕駛就越遙遠。而端到端 +VLM+ 生成式的驗證系統,會是未來整個物理世界機器人最重要的技術架構和技術體系。
在 7 月召開的智能駕駛夏季發布會上,理想首次公開展示了這一全新的自動駕駛架構。該架構主要由端到端模型、VLM 視覺語言模型、世界模型三部分共同構成。爲此,理想卧薪嘗膽了一年,一邊繼續用 NPN 減少對高精地圖的依賴,兌現去年 " 百城 NOA" 的承諾;一邊研發 " 無圖 NOA",同步進行端到端的預研。
今年 7 月,理想汽車向 1000 名内測車主推送了基于端到端模型 +VLM 的智駕版本。該版本可以達到 L2+++ 的智駕水平,甚至足以支持 L3 級(有需要時駕駛員要接管)、L4(無需接管的自動駕駛)級自動駕駛産品。
在不到 1 個月的時間裏,千人内測的城市 NOA 總行駛裏程達到 21.1 萬公裏,單日城市 NOA 駕駛最長裏程爲 391 公裏,單次城市 NOA 零接管最長裏程 81.6 公裏。在此過程中,系統對于司機駕駛數據的學習,讓對于環島、超車的處理能力得到明顯提升。在 8 月成都車展上,理想又同步開啓了萬人内測,顯然是期冀于全新自動駕駛技術架構成爲彎道超車的利器。
回溯理想汽車的智駕技術路線,從高精地圖方案到 NPN(神經先驗網絡),再到無高精地圖方案,再到如今的 " 端到端 +VLM",短短 3 年内,智駕團隊嘗試了多種方案。然而在技術架構快速更叠的過程中,智駕體驗雖然更好了,但系統到底運用了司機掌握的哪些技巧和規則,端到端的不可解釋屬性,讓工程師和使用者還無從得知。
在 L4 級自動駕駛(高度自動駕駛) 真正實現之前,坐在駕駛位置的還是人,因此安全、可靠、穩定,才是用戶對當前智能駕駛的檢驗标準。如何印證技術的安全性與先進性,是所有玩家無法回避的核心問題。
02 激進派 PK 保守派
智駕時代上半場,系統能力的上限取決于産品的設計能力,例如下匝道、超車變道、走 ETC 等能力,這需要逐一進行拆解和細化。進入到智駕時代下半場,端到端的應用能讓系統能力的上限更高,在一些關鍵場景的表現更加拟人,更加靈活自如,摒棄了傳統智能駕駛系統的生硬的 " 規則感 "。
郎鹹朋稱,他們在訓練了 80 萬條數據量時,系統還不能通過環島,但是在訓練了 100 萬條後,驚喜地發現系統可以做到了。
理想汽車智能駕駛研發副總裁郎鹹朋
理想方面認爲,端到端是真正用人工智能的方式去做自動駕駛了。隻要用更多數據訓練模型,系統就會不斷變強,表現可能超過人類司機。
雖然端到端進化速度很快,但畢竟屬于 " 黑盒 " 模式,對于其能力的評價和測試是不确定性的,很難測試和驗證。當大模型遇到很多沒學明白的地方時,就容易出現下限問題。比如特斯拉車主就遭遇過危險時刻,當十字路口的直行道排隊較長,特斯拉的 autopilot(自動駕駛)直接拐到左轉道,然後紅綠燈一亮,直接又加速斜插回直行道。差點和直行車撞上。所幸,駕駛員一腳踩住了刹車。
因此,類似場景既需要算法覆蓋,用有優質的數據強化訓練,讓系統學會安全的駕駛習慣,同時還要有兜底的手段,比如駕駛者打算進行 180 ° 的急轉向,理想智駕的控制模塊就會對其進行約束。
爲了讓智駕的安全性得到保證,理想設置了安全兜底模塊,确保系統有絕對的下限。今年 7 月,理想汽車正式推送全自動緊急轉向 AES(自動緊急轉向)。AES 在自動緊急制動系統 AEB(自動緊急刹車)的基礎上,将一維的縱向制動,升級到了二維的制動及轉向,規劃多條躲避路徑并選擇其中最優的進行避撞。" 用算法、冗餘一起來解決安全問題,是在最極端的情況下,最兜底的一種保證絕對安全的方式。" 郎鹹朋表示。
據了解,小鵬、極越等保守派玩家采用的是兩段式端到端,即感知和規控分爲兩個模型來做。以小鵬汽車爲例,其技術方案是感知神經網絡 XNet+ 規劃神經網絡 XPlanner+ 側重場景理解的視覺語言模型 XBrain。
對此,激進派認爲分段式端到端仍然沒有擺脫傳統方案的範疇,盡管感知與規劃都實現了神經網絡化,但一個關鍵點沒有改變,即連接兩個神經網絡的依然是人類定義的接口,這意味着信息損失,以及大量人工标注,整個流程不利于全局最優,也不利于自動化。
不過,分段式端到端的優點也同樣在此,有人類定義的接口,意味着會輸出人類能看懂的中間結果,便于檢查、定位問題,不至于牽一發而動全身。比如,感知出問題了不用把整張網絡都重新訓練一遍。更重要的是,分段式端到端更容易保住智駕表現的下限。
理想選擇的一段式端到端,則是用傳感器輸入,模型推理完畢後直接給到軌迹規劃用來控車的一體化端到端模式。
其對于堅持采用一段式端到端的解釋是,這種方式能夠解決中間信息的損失。倘若中間增加了人爲的信息消化過程,分段式端到端的效率可能會所有降低,能力上限也會受到約束。
對于能力下限的解決方案,理想設計了一套多系統結構,即以端到端爲基礎,整合具備兜底和泛化能力的 VLM 視覺語言大模型和用于驗證和強化學習的世界模型。
2024 款理想 L9
VLM 視覺語言大模型擅長的是邏輯推理,能夠去執行複雜的分析,在駕駛中給 " 端到端 " 系統提供更加符合邏輯、準确的駕駛決策。比如當車輛行駛到一個複雜的路段,同時又遇到一個水坑,這時候其會調用大腦系統 2 工作,處理複雜邏輯并推演,兩個系統實時運行,相互配合協同,目的是讓車輛更拟真人駕駛。
世界模型是智駕行業找到的最新方法論。它通過學習海量真實駕駛場景視頻,可以預測并生成未來一定時間内的駕駛場景視頻,做出正确的駕駛決策,本質上就是時空推演。在 2023 年人工智能頂級會議 CVPR 上,特斯拉展示了世界模型的研發成果。
使用世界模型比目前的端到端更進一步的是,它的核心任務不僅僅是給出規劃路徑,更有 " 預測駕駛場景的像素變化 "。這個難度極高的任務,會逼迫模型不僅僅學習優秀駕駛員的行爲,還必須廣泛地學習交通知識與物理常識。
理想的世界模型是通過擴散模型技術和 3DGS 技術(即三維高斯濺射技術,是一種先進的三維建模和可視化技術),把曾經遇到過錯題以及遇到過的場景,舉一反三地形成模拟題,實現不斷地測試模型能力,不斷地優化各個城市表現。它相當于是一套題庫,來源有兩種:
一種是根據真實車主的數據,産品和整車的主觀評價團隊,與内部司機共同制定 " 老司機标準 ",然後給理想車主的駕駛行爲進行打分。如果在安全、法律法規等維度存在不安全、不合規的情況,模型就不能交付給用戶。
另一種方式類似 " 錯題庫 ",在正常的測試和開車過程中,用戶的接管和退出就是 " 錯題庫 "。
真題庫和錯題庫都有了,理想還會再生成一些模拟題,根據現有的數據舉一反三,比方說有個匝道總是出問題,那麽匝道的場景,理想都會進行訓練,再生成一些匝道的内容,這就是模拟題。
03 标配和免費,
理想能否堅持到底?
2024 年 1 月,特斯拉開始大規模推送的 FSD V12,帶火了 " 端到端 ",也讓智能駕駛迎來了 ChatGPT 時刻。一時間,仿佛 L4 級别的智能駕駛呼之欲出。
相比于特斯拉,以理想、蔚來、商湯、元戎爲代表的科技公司,其技術路線向端到端轉移大多是從 2023 年底才開始。這意味着無論是模型的建立還是數據訓練,中國車企與特斯拉之間始終存在着一定差距。
去年,理想對于智駕技術的判斷是,隻落後特斯拉半年。今年,這個差距可能還會再小一點。在郎鹹朋看來,理想的技術架構和特斯拉相比代差不大,甚至更有優勢," 因爲我們有 VLM,有系統 2,特斯拉隻是有系統 1,端到端。"
郎鹹朋表示,理想提出端到端 +VLM 的系統架構後,行業内很多企業也開始提及雙系統理論的好處,無論是對于理想汽車來說,還是對于特斯拉來說,其實都是在向雙系統方向發展。
從訓練算力和訓練數據方面來看,中國企業的相關布局也更勝一籌。" 特斯拉應用數據的合規性會受到一些約束,訓練算力的部署搭建也還需要時間。" 郎鹹朋認爲,從這個層面上看,國内車企跟特斯拉的整體差距不會越拉越大。
目前,理想有 80 萬車主、超過 12 億公裏的數據,五千張 A100、A800 等同的訓練卡數量,訓練算力達 5.39EFLOPS,在行業内都屬于頭部。但這是一場昂貴的競賽,招兵買馬、購置 GPU、訓練模型,這是巨額開支,需要有健康的利潤來提供支持。
但外界認爲,理想的智駕業務很激進,商業策略卻相對保守。
李想在重慶汽車論壇上誓言,端到端 +VLM 會在 3 年内實現 L4 級别自動駕駛。但理想不但沒有想過 Robotaxi 這門生意,甚至到目前爲止仍沒有表露出對智駕收費的興趣。
從公司成立第一天開始,标配和免費就是理想進入智能駕駛就制定的策略。未來," 有監督的自動駕駛對所有 AD Max 的車主也是不收費的。" 郎鹹朋告訴我們,公司目前的交付量比較好且企業經營穩健,也有足夠的資源投入智駕研發。
與小鵬、蔚來不同,理想的智駕 KPI 并不是取得經營收入,而是爲銷量服務。過去一年,理想直面鴻蒙智行,銷量承壓。而鴻蒙智行的最大賣點,就是華爲的 ADS 智駕能力。理想免費的 AD MAX 智駕可以在最大程度上幫助搶下更多訂單。
理想 L6
據理想汽車發布的數據顯示,公司 7 月 -8 月交付量達到 5.1 萬輛和 4.8 萬輛,同比增長 49.4%、37.8%。展望第三季度,理想汽車預計季度交付量達到 14.50 萬輛至 15.50 萬輛,同比增長 38.0% 至 47.5%;收入總額預計達到 394 億元至 422 億元,同比增長 13.7% 至 21.6%。根據指引,9 月理想汽車将保持 5 萬輛交付,并在 10 月實現累計交付百萬輛。
郎鹹朋表示,無圖 NOA 全量推送之後,門店的試駕量和銷量都有大幅度的提升。近兩個月,專門進店試駕 AD Max 的數量翻了一倍。其中 30 萬元以上的車型,AD Max 超過 AD Pro,占比提高到 70%,理想 L9 AD Max 占比甚至達到 90% 以上。
如今,中國汽車行業已全面進入智駕時代,淘汰賽已然開始,智駕業務的燒錢程度很難再讓新勢力們一直保持 " 交個朋友 " 的狀态。一張訓練卡的成本 10 萬元起跳,智駕千人團隊的人力成本每年 10 億元起步,理想汽車的端到端智駕最終能否收獲同等回報,還需要等到全面交付時再下定論。
責編:秦琪
推薦閱讀
☎️ 聯系我們
星标指南