在成本和視覺路線的夾擊下,激光雷達到底有用嗎?
文丨智駕網 黃華丹
實現自動駕駛的路線到底會是怎樣的?不同路線有不同的堅持者。
5 月 17 日,在第十屆國際智能網聯汽車技術年會(CICV 2023)上,清華大學博士鄭文钊認爲,視覺路線會是實現自動駕駛的大趨勢。
視覺方案的優勢很明顯,攝像頭發展技術成熟,成本低,而且無需對不同傳感器采集的多模态數據進行融合。
當然,劣勢也同樣明顯。圖片隻能提供二維信息,無法感知到三維深度,而且,攝像頭受天氣條件影響明顯。
2021 年,特斯拉提出 BEV+Transformer 路線,成爲行業追随的熱點。發展到今天,當多家方案商與主機廠紛紛跟進,BEV+Transformer 再次成爲業界焦點。
而特斯拉自己,則已從 BEV 升級到 Occupancy Network,進一步優化了視覺系統的弱點。
CICV 上,鄭文钊則介紹了其研究組提出的 TPV 模式。TPV 基于 BEV 模式擴展,憑借有限的計算增量,實現了對物體整個三維立體空間信息的編碼。
根據展示,采用基于 TPV 的 TPVFormer 模式,可以有效從 2D 圖片中還原出三維空間的基本結構,并且能有效識别微小的物體與罕見的物體。
也就是說,采用 TPVFormer 模式,可以較低的成本,對二維圖像進行更準确的三維重建,因而能大大提高視覺感知的精确度。
01.
純視覺 or 激光雷達?重要的依然是成本
那麽,這是不是意味着激光雷達就沒用了?鄭文钊認爲是的。
這是視覺派的觀點。
曾有一位視覺方案供應商的技術專家向智駕網表示,基于第一性原理,很多做技術的人都堅信馬斯克的視覺路線一定能成功。
Tier 1 可以說是中間派。主機廠需要什麽,企業就提供什麽。
智駕網在會場咨詢了一位某國際 Tier 1 企業的感知算法負責人,他表示目前高端車型上主機廠仍傾向于使用激光雷達方案,而在更追求性價比的車型上,視覺方案則更受主機廠歡迎。但确實,越來越多主機廠開始嘗試視覺方案,畢竟成本放在那裏。但如果激光雷達成本能降下來,應該還是沒問題。當被問及該企業内部對未來的路線規劃時,這位負責人表示有待更新。
而激光雷達企業自然是堅定的多傳感器派。禾賽科技 CEO 李一帆就曾在發布會上用了大量篇幅闡述他認爲激光雷達的重要性,以及激光雷達對安全的提高到底是 "Nice to have" 還是 "Must have"。
鄭文钊在演講中對比了視覺路線和多傳感器融合感知路線的優缺點。
純視覺路線采集的信息僅有圖像語義,多傳感器融合方案則除了圖像語義外還包括了三維點雲。兩者各有優缺點。
純視覺方案的優點是相對成本低,無需對多模态數據進行融合,同時可采用視覺通用大模型進行開發。缺點則是無法提供三維深度,同時也導緻測距精度低,且由于攝像頭本身的特性,在低可視場景下性能下降。
而多傳感器融合方案的優點則是能提供稀疏的點雲深度信息,測距精度高,抗幹擾能力強。缺點也很明顯,成本高,數據融合複雜,可能存在沖突,而且目前來看,不同模态數據的模型算法尚未統一。
兩者的技術難點,純視覺路線是要對 2D 圖像進行有效的 3D 場景重建,而多傳感器路線則需對多模态數據進行融合與對齊。
兩種方案各有優劣,除去技術難點,剩下的主要問題便是,要不要用高成本來換取多傳感器的高可靠性?或者,也可以理解爲,激光雷達的技術難點攻克以及成本下降速度能否跟得上視覺路線技術難點的攻克?
可見,激光雷達最大的敵人,依然是 " 成本 " 二字。
02.
視覺派在不斷前進
首先我們來看視覺路線。
什麽是 BEV?什麽是 Occupancy Network?什麽又是 TPV?
BEV 是特斯拉 2021 年提出的技術路線,全稱 Bird Eye View,鳥瞰圖。簡單來說,其原理就是将攝像頭采集的圖像通過矯正後,統一輸入到神經網絡進行處理,并将其投影到自上向下視角的向量空間中進行拼接,形成反映車輛周邊環境的鳥瞰圖。
這種方式的優勢是能夠把車輛近處的感知統一放到一個平面中,擴大了感知的範圍。但其缺點是,鳥瞰圖依然是 2D 視圖。
鄭文钊表示,BEV 是壓縮了整個三維空間中的高度維,雖然這一維在自動駕駛中信息含量較少,但還是會包含一些信息。因此,鳥瞰圖模式下,同樣無法感知到高度或深度信息。
其優勢是空間複雜度較小,需要的計算量也相對較小。缺點則是對物體的識别仍然基于提前的标定和學習,對于沒有見過的異形物體就不容易識别。
2022 年,特斯拉又提出了 Occupancy Network,其原理是将整個場景劃分成微小的立方體或體素,而障礙物則以 3D 空間内塊狀物體的形式進行展現,通過預測每個體素是否被占用,就能判斷車輛需不需要躲避,而不必判斷占用的是什麽物體。其優勢是對三維空間的描述非常精确,但同時空間複雜度也很高,對算力要求自然也高。
而鄭文钊所在小組提出的 TPV 則是 Tri-Perspective View 的簡稱。具體而言,就是将 BEV 的但平面視圖推廣成了 TPV 的三個平面。
它并不是體素那樣完全能表示結構的立方體空間,而隻是三個平面的集合,并不能編碼結構信息,但可以用來編碼整個三維立體空間的信息。簡單來說,就是 BEV 隻能表現鳥瞰圖,體現的隻有長寬信息,TPV 則加上了高度維的信息,同時可以表現兩個側平面。因爲是三個平面,其複雜度也隻是 BEV 的三倍,而不會像體素那樣大大增加。
在用 TPV 表示三維空間時,任意一個點都會被投影到三個平面上,将這三個平面上的特征相加作爲各點的特征,在投影之後再對其進行後續的神經影視建模處理,以得到更加精細的特征,也可以使用差值實現無限的分辨率,從而實現高效的對三維空間整體的建模。
鄭文钊表示,TPV 的整個模型是比較輕量化的。相較于特斯拉的 Occupancy Network,TPVFormer 使用的訓練監督、訓練數據和訓練時間都大大減少,而其得到的結果是,即便對一些微小的,罕見的物體也能很好地預測出來。
這将幫助視覺感知更好地實現圖像從 2D 到 3D 的建模,從而提高其可靠性。
另一方面,鄭文钊認爲激光雷達的點雲具有稀疏性,難以識别遠處的行人等小物體,而圖像數據擁有更豐富的信息。不過,以目前激光雷達的點雲密度來看,識别行人顯然問題不大。
在視覺方案末尾,我們再簡單提一下 Transformer,它是一種基于注意力機制(Attention)的神經網絡模型,它不像一般的序列到序列的轉換模型是按照串行順序來處理數據,而是通過注意力機制,去挖掘序列中不同元素的聯系及相關性,來處理輸入與輸出之間的依賴關系。
Transformer 需要大模型,同時也需要大量的數據來支持訓練。
03.
激光雷達的核心優勢是安全
多傳感器方案的優勢,鄭文钊認爲主要是定位準确,且檢測精度高。
李一帆也在此前禾賽的發布會上表示,所有傳感器中,激光雷達具有最高的感知确定性。其鮮明的優勢是不受光線影響,能直接獲取三維空間距離,提升感知置信度。
而對消費者來說,激光雷達最大的作用依然是提高安全度。
有趣的是,李一帆的觀點可以說其實和視覺派也有相似之處,即随着時間的推移,技術的發展,視覺方案的安全性和激光雷達方案的安全性會越來越接近。即李一帆認爲的絕對差距在縮小。
但二者無限接近的時間點會是在什麽時候,仍是個未知數。而在那之前,激光雷達相較于視覺路線的安全性依然是值得投資的。
李一帆表示,雖然激光雷達相對來說成本更高,但 life matters,對生命來說,安全度能提高多少都很重要。李一帆認爲現階段,激光雷達讓安全性至少提高了 50%。
從本質上來說,我認爲這其實和我的觀點還是一緻的。也就是說,如果激光雷達的成本能下降到和視覺方案相當,或者甚至更低(這種可能性似乎不大),那麽,在視覺方案成熟到安全性與激光雷達方案基本一緻時,二者會是并存的路線,更适應哪個路線就使用哪個路線。
而在此之前,在高階智能駕駛方案中使用激光雷達,其實是以較高的成本來換取更高的安全性。是否要使用激光雷達,也是一個權衡取舍的問題。
至于這個時間點會是在什麽時候,暫且可以期待一下最新版的特斯拉 FSD。此外,國内也有多家企業表示基于雙目視覺方案開發了城市 NOA,效果如何,也要看其量産落地時的表現。
【關注智能汽車,關注智駕網視頻号】