圖片來源 @視覺中國
文|解碼 Decode
1989 年,卡内基梅隆大學接到了美國軍方的一個研究課題,内容是當時看起來不可思議的自動駕駛。
爲此,研究人員給一輛翻新的軍用急救車,裝上了一個看起來像探照燈的碩大攝像頭,還配備了一台冰箱大小的處理器和一部 5000W 的發電機。
盡管設備簡陋、數據粗糙,比如據媒體報道當時車頂的攝像頭隻能輸入 30 × 32 像素網格,但借助開創性的神經網絡,這輛名爲 ALVINN 的自動駕駛汽車最高速度能達到 88km/h。
ALVINN 被譽爲自動駕駛領域一個裏程碑項目。其最深刻的影響,正是用神經網絡替代人工代碼,成爲後來自動駕駛技術發展的一座燈塔。
此後數十年,自動駕駛技術沿着 ALVINN 的方向飛速發展,直到 chatGPT 問世,大模型走上舞台,成爲改變自動駕駛最大的一個變量。
在車端,大模型已經作用于自動駕駛的感知和預測環節,正在向決策層滲透;在雲端,大模型爲 L3 及以上自動駕駛落地鋪平了道路;甚至,大模型還将加速城市 NOA 落地。
而全球的下遊企業中,特斯拉毫無疑問是跑在最前面的少數。
今年 8 月特斯拉端到端 AI 自動駕駛系統 FSD Beta V12 版本的公開亮相,據稱可以完全依靠車載攝像頭和神經網絡,識别道路和交通情況并做出相應的決策。
這種端到端模型的感知決策一體化,讓自動駕駛直接從一端輸入圖像數據,一端輸出操作控制,更接近人類的真實駕駛。
但車企們努力接近端到端模型時才發現,想要超越必須先跟随。
算法優先
讓大模型上車,特斯拉絕對是最激進的一個。
早在 2015 年,特斯拉就開始布局自動駕駛軟硬件自研,2016-2019 年陸續實現了算法和芯片自研。随後在 2020 年,特斯拉自動駕駛又迎來大規模升級:
不僅用 FSD Beta 替換了 Mobileye 的 Autopilot 3.0,還将算法由原來的 2D+CNN 升級爲 BEV+Transform。
Transformer 就是 GPT 中的 T,是一種深度學習神經網絡,優勢是可實現全局理解的特征提取,增強模型穩定性和泛化能力。
BEV 全稱是 Bird ’ s Eye View ( 鳥瞰視角),是一種将三維環境信息投影到二維平面的方法,以俯視視角展示環境當中的物體和地形。
與傳統小模型相比,BEV+Transformer 對智能駕駛的感知和泛化能力進行了提升,有助于緩解智能駕駛的長尾問題:
1)感知能力:BEV 統一視角,将激光雷達、雷達和相機等多模态數據融合至同一平面上,可以提供全局視角并消除數據之間的遮擋和重疊問題,提高物體檢測和跟蹤的精度 ;
2)泛化能力:Transformer 模型通過自注意力機制,可實現全局理解的特征提取,有利于尋找事物本身的内在關系,使智能駕駛學會總結歸納而不是機械式學習。
2022 年特斯拉又在算法中引入時序網絡,并将 BEV 升級爲占用網絡 ( OccupancyNetwork ) ,有效解決了從三維到二維過程中的信息損失問題。
從感知算法的推進來看,行業總體 2022 年及之前的的商業化應用主要爲 2D+CNN 算法。随着 ChatGPT 等 AI 大模型的興起,算法已經升級至 BEV+Transformer。
時間上特斯拉有領先優勢(2020 年),國内小鵬、華爲、理想等均是今年才切換至 BEV+Transformer。
但不論是特斯拉還是國内主機廠,BEV+Transformer 都仍隻應用于感知端。
雖然學術界以最終規劃爲目标,提出感知決策一體化的智能駕駛通用大模型 UniAD+ 全棧 Transformer 模型,不過受限于算法複雜性 + 大算力要求,目标落地尚無準确時間表。
算力競賽
2016 年,因輔助駕駛緻死事故和 Mobileye 分道揚镳的特斯拉,找到英偉達定制了算力爲 24TOPS 的計算平台 Drive PX2,由此開啓了車企瘋狂追求算力的神奇序幕。
繼 Drive PX2 之後,英偉達在 6 年時間内發布了三代智能駕駛芯片,從 Xavier、Orin 再到 Thor,算力從 30TOPS 一躍升到 2000TOPS,足足增長了 83 倍,比摩爾定律還要快。
上遊如此 " 喪心病狂 " 的堆算力,歸根結底還是因爲下遊有人買單。
一方面,随着智能汽車上的傳感器規格和數量提升,帶來數據層面的暴漲。
以特斯拉 Model Y 和小鵬 G6 Max 爲例,後者因配置了更多傳感器,所需算力達到了前者的 3.5 倍。
當一輛自動駕駛車輛每天可以産生數 TB,甚至數十 TB 數據,數據處理能力即爲自動駕駛技術驗證的關鍵點之一。
另一方面," 大模型化 " 也讓智能駕駛算法的芯片算力愈發吃緊。
上汽人工智能實驗室曾測試,實現 L2 級自動駕駛隻需 10Tops 以下的算力,即便是實現 L4 級自動駕駛也隻需 100Tops 左右的算力。而下遊企業暴漲的算力需求,實際也另有原因。
一個是雲端算力。
自動駕駛系統前期和後期開發依賴大量環境數據輸入,對算法進行訓練與驗證,同時仿真測試中場景搭建與渲染也需要高算力支持。
而且特斯拉引領的神經網絡 Transformer 又是一個資源消耗大戶,毫末智行數據顯示,Transformer 在訓練端所需算力是 CNN 的 100 倍。
如此一來,下遊企業想要獲得算力要麽自建智算中心(特斯拉),要麽與雲服務商合作,最不濟的全部外采,包括算法、計算資源、應用服務等。
國内主流主機廠 / 自動駕駛廠商的智算中心雖然都已上線,但因自建成本較高,國内主流自動駕駛廠商大多采取合作模式 / 采購模式,比如吉利星睿、小鵬扶搖都是阿裏雲,毫末和理想則是火山引擎。但從長期成本優勢來看,仍具備較高的自建傾向。
還有一個則是 NOA。
現實中主機廠具備城市 NOA 高階智能駕駛功能的車型,算力大多在 200-500TOPS 左右。
但 NOA 從高速道路向城市道路拓展(高速道路 - 城市快速路 - 城市主幹道 - 城市次幹道 - 城市支路)的過程中,人流越密集(每天僅 25% 的人出行途徑高速,而城市道路則是 100%)的道路環境複雜度更高,物體識别、感知融合和系統決策的算力需求就越高。
沐曦首席産品官孫國梁就指出,在車端部署大模型并能實現既定任務,算力至少要達到 300~500TOPS。模型優化或可降低算力要求,但考慮到未來場景複雜度和數據量增加,以及視覺感知占比增加(相對基于規則),車端算力或将翻倍達 800TOPS 以上。
感知升級
光大證券有一個判斷,認爲 L2/L2+ 級向 L3 級高階智能駕駛邁進的三大要素重要性排序分别是數據 > 算法 > 硬件,而後階段向更高階智能駕駛邁進的排序或爲硬件 >= 算法 > 數據。
理論依據在于,實現 L3 級智能駕駛的關鍵在于全面感知,主要依賴海量 + 長尾場景數據驅動算法升級優化;其中,無圖場景覆蓋還需低線城市數據(vs. 當前車載算力已基本滿足 L3-L4 級需求)。
而當前階段,海量 + 長尾場景數據的獲取就要依靠車載傳感器(攝像頭)的大幅升級。
根據 Yole 報告,自動駕駛 L1-L3 所需的攝像頭數量翻倍增長,比如 L1-L2 級僅需前後兩顆攝像頭,到 L3 就要 20 顆。
而實際上,主機廠爲後續 OTA 升級預留冗餘,單車攝像頭配置遠超本級所需的攝像頭數量,如特斯拉 Model 3 搭載 9 顆,蔚來、小鵬、理想車型達到 10-13 顆。
此外,因大模型對感知數據的精細化要求,高分辨率圖像數據可以作爲深度學習模型中更新和優化其架構的參數的數據源,尤其是前視攝像頭,需要解決的場景最多,目标識别任務最複雜,比如遠距離小目标識别、近距離目标切入識别。
爲了對更遠距離的目标進行識别和監測,車載攝像頭就要向 800 萬像素或更高升級。典型如百度 Apollo,就已聯合索尼、聯創與黑芝麻智能,全球首創了超 1500 萬高像素車載攝像頭模組。
而在提高感知能力這件事上,還有兩個所有車企都想繞開的坎,高精地圖和激光雷達。
高精度地圖作爲先驗信息,可以給自動駕駛提供大量的安全冗餘,在數據和算法尚未成熟之前,主機廠依賴程度較高。而脫圖的原因也比較好理解:
1)高精地圖存在更新周期長、成本高、圖商資格收緊等弊端,限制了高階自動駕駛大規模商業化的可能性。
2)構建數據閉環,形成對算法模型的叠代升級反哺車端。
至于如何脫圖,特斯拉的辦法是引入車道線網絡及新的數據标注方法,國内自動駕駛頭部公司則采取車端實時建圖方案,通過安裝在車輛上的相機等傳感器來構建車輛行駛過程中周圍的環境地圖。
目前小鵬、華爲等頭部主機廠發布無高精地圖的高階智能駕駛方案,并定下量産時間表,華爲、毫末、元戎啓行等自動駕駛公司也加入其中,自動駕駛算法 " 重感知,輕地圖 " 趨勢明确。
激光雷達則是因爲成本問題。
激光雷達在距離和空間信息方面具有精度優勢,搭載激光雷達的多傳感器融合感知方案可通過互補達到全環境感知能力,爲高級别自動駕駛提供安全冗餘。
但激光雷達也的确是成本大戶,早些年除了特斯拉,幾乎所有成熟的無人駕駛技術方案都采用了 64 位激光雷達,它的成本約人民币 70 萬元,一個小雷達抵得上一輛車甚至幾輛車。
特斯拉利用占用網絡來實現類似激光雷達的感知效果,國内主機廠由于機器視覺算法的缺失,預計仍将激光雷達作爲重要的補充傳感器,由此可減少在視覺領域所需積累的數據量。
另外 4D 成像毫米波雷達或将完全替代 3D 毫米波雷達,有望對低線激光雷達形成替代。
與激光雷達相比,4D 成像毫米波雷達部分指标近似達到 16 線激光雷達性能,但成本僅爲激光雷達十分之一。
特斯拉基于全新的自動駕駛硬件 HW4.0,首次在 S/X 的車型上搭載了 4D 毫米波雷達。除特斯拉外,價格在 40 萬元以下的理想車型和價格在 70 萬以上的寶馬車型、以及通用收購的 Cruise 自動駕駛服務車均于近兩年完成了 4D 毫米波雷達布局。同時大陸、采埃孚等汽車 Tier-1 巨頭基本完成對該領域的布局。
尾聲
8 月,馬斯克親自上線開啓了一場 FSD Beta V12 的試駕直播,45 分鍾内 FSD Beta V12 系統在行駛全程進展非常順利,能夠輕松繞過障礙物,識别道路各種标志。
馬斯克激動地表示:
V12 系統從頭到尾都是通過 AI 實現。我們沒有編程,沒有程序員寫一行代碼來識别道路、行人等,全部交給了神經網絡。
而這一切是建立在巨量的「視頻數據」和 1 萬個 H100 之上。
遺憾的是,這兩個戰略性資源都不是國内主機廠能夠輕易追趕上的。
參考資料:
[ 1 ] 你知道麽,自動駕駛竟然已存在 27 年?佚名
[ 2 ] 智能駕駛芯片算力越大就越好嗎,遠川汽車評論
[ 3 ] 大模型應用下自動駕駛賽道将有哪些變化?天風證券
[ 4 ] AI 大模型應用于汽車智能駕駛梳理:吐故納新,如日方升,光大證券
[ 5 ] ALVINN 探秘:一輛來自 1989 年的自動駕駛汽車,雷鋒網
[ 6 ] 爆火的 ChatGPT,能讓自動駕駛更快實現嗎?钛媒體
[ 7 ] 馬斯克直播試駕特斯拉 FSD V12!端到端 AI 自動駕駛,1 萬塊 H100 訓練,新智元