圖片來源 @視覺中國
文 | 賽博汽車
從時間維度上看,BEVFormer 已是曆史産物,或許幾個月、最多一兩年後,一個真正的 " 王炸 " 會出現。
2021 年 7 月,特斯拉展示了基于 BEV+Transformer(BEVFormer)的自動駕駛感知新範式,在取得了驚豔的效果後,國内也掀起 " 跟風潮 "。
近期,理想、蔚來、小鵬、小馬智行、百度等多家主流車企、自動駕駛方案解決商推出相關量産方案。
一時間,BEV 越發 " 火 " 了起來。
這背後邏輯也很好理解。一方面,BEV 技術已經日漸成熟,從預研階段基本走到了量産落地階段;另外一方面,今年可能會是從高速 NOA 走向城區 NOA 量産的元年,在更加複雜的智駕場景下,BEV 所帶來的優勢能更好地得到體現。
與此同時,在智能駕駛商業化進展不及預期的大背景下,BEV 也可以作爲相關企業難得的 " 技術賣點 "。
因此,在這個時間節點,我們試圖按照 What-Why-Who-How 的邏輯,對 BEV+Transformer 技術本身,以及背後的商業價值可能性進行探讨。
What:什麽是 BEV+Transformer
首先解決技術概念問題。
BEV(Bird's-eye-view),即鳥瞰圖視角,是自動駕駛跨攝像頭和多模态融合背景下的一種視角表達形式。
它的核心思想,是将傳統自動駕駛2D 圖像視角(Image View)加測距的感知方式,轉換爲在鳥瞰圖視角下的3D 感知。
從實現任務來說,BEV 的核心是将 2D 圖像作爲輸入,最終輸出一個 3D 的框架,在這個過程中,如何将不同傳感器的特征(feature)實現最優表達是難點。
目前行業有兩種常見的方式,一種是正向思維,采用自底向上、從 2D 到 3D 的方式,先在 2D 視角去每個像素的深度,再通過内外參投影到 BEV 空間,通過多視角的融合生成 BEV 特征,但對深度的估計一直都是難點。
另一種方法是逆向思維,采用自頂向下、從 3D 到 2D 的方式,先在 BEV 空間初始化特征,在通過多層 transformer 與每個圖像特征進行交互融合,最終再得到 BEV 特征。
在第二種方法中,因爲 Transformer 的存在,使得 " 逆向思維 " 成爲了可能。
Transformer 是一種基于注意力機制(Attention)的神經網絡模型,由 Google 在 2017 年提出。與傳統神經網絡 RNN 和 CNN 不同,Transformer 不會按照串行順序來處理數據,而是通過注意力機制,去挖掘序列中不同元素的聯系及相關性,這種機制背後,使得 Transformer 可以适應不同長度和不同結構的輸入。
Transformer 問世後,先在自然語言處理 NLP 領域大放異彩,之後被逐步移植到計算機視覺任務上,也取得了驚人的效果,實現了 NLP 和 CV 在建模結構上的大一統,使視覺和語言的聯合建模更容易,兩個領域的建模和學習經驗可以通過深度共享,也加快各自領域進展。
Why:爲什麽需要基于 Transformer 的 BEV
在厘清技術原理後,其實也就理解了 " 爲什麽需要 " 的問題:識别準,精度高,方便和激光、毫米波雷達做前融合等。
具體延展來看,BEV 可以帶來四大優勢。
第一,BEV 視角下的物體,不會出現圖像視角下的尺度(scale)和遮擋(occlusion)問題。由于視覺的透視效應,物理世界物體在 2D 圖像中很容易受到其他物體遮擋,2D 感知隻能感知可見的目标,而在 BEV 空間内,算法可以基于先驗知識,對被遮擋的區域進行預測。
第二,将不同視角在 BEV 下進行統一表達,能極大方便後續規劃和控制任務。主流規劃和控制算法,不論上遊傳感器信息來自什麽視角,經過融合之後,都會轉換到以自車爲中心坐标系中(Vehicle Coordinate System,VCS),對 VCS 來說,最适合的其實就是 BEV 視角,也就是 BEV 感知結果輸出的空間是規劃和控制任務的标準輸入。
第三,BEV 能夠給系統帶來巨大的提升。攝像頭感知算法工作在 2D 空間,而雷達感知算法工作在 3D 空間,在對 2D 與 3D 幾何關系融合過程中,會丢失大量的原始信息,采用 BEV 感知系統中,攝像頭、激光雷達、毫米波雷達感知均在 BEV 空間中進行,融合過程提前。BEV 還可以引入過去時間片段中的數據,實現時序融合,最終使感知效果更加穩定、準确。
第四,BEV 能夠實現端到端優化。感知任務中的識别、跟蹤和預測本質是一個串行系統,系統上遊誤差會傳遞在下遊誤差,在 BEV 空間内,感知和預測都在同一個空間進行,可以通過神經網絡做到端到端的優化,輸出 " 并行 " 結果,而整個感知網絡可以以數據驅動方式來自學習,實現快速叠代。
可以理解爲,BEV 可以實現将 360 度環視的時間、空間融合,再加上 Transformer 架構可以輸出靜态的車道線、紅綠燈、道路邊緣信息等,以及動态的有行人、兩輪車、汽車等,同時還應用了端到端的預測能力,結合時序幀能對周邊的車輛做未來 3-6 秒的軌迹預測。
這也意味着,端到端的算法有了閉環的希望。
Who: 行業最佳實踐是特斯拉
特斯拉是第一個在工業界采用 BEV+Transformer 進行視覺感知任務的企業。
在其感知任務中,首先利用主幹網絡對各個攝像機進行特征提取,再利用 Transformer 将多攝像機數據從圖像空間轉化爲 BEV 空間。
在這個空間裏面,通過深度學習去完成一個特征的融合,然後再通過一個 3D 的解碼器,直接端到端輸出最後的一個 3D 檢測和道路結構信息,這樣下遊的規劃與控制直接可以在 BEV 的空間上去進行。
這一次革命,讓馬斯克可以自信地對外宣稱,特斯拉感知不依賴激光雷達和毫米波雷達,依靠純視覺,也可以得到準确三維世界信息。
基于以上實踐,衆多車企以及智駕供應商都開始嘗試 BEV+transformer,車企裏的代表蔚來、理想、小鵬;智駕供應商裏面的百度、毫末、地平線、小馬、輕舟等等,在具體使用方法上每一家有 " 微調 ",但是整體還是跟随特斯拉的節奏在走。
How:自動駕駛感知的主流範式
未來,BEV+Transformer 很有可能會替代之前的 2D+CNN,逐步成爲自動駕駛感知的主流範式。
這意味着,從硬件芯片開始,到傳感器攝像頭、軟件算法、模型部署、數據采集标定等,都需要有相應的适配和變化。
第一,爲了确保視覺感知重疊,對汽車攝像頭數量的要求會有所提升,相應地,激光雷達的數量以及在感知中的作用會減少,也就是純視覺技術路線會受到更多的青睐。
第二,Transformer 是暴力美學,模型體量驚人,其運算還會消耗大量的存儲及帶寬空間,對芯片來說,除了需要進行相應算子适配以及底層軟件優化外,在 SOC 層面需要對緩存和帶寬要求進行增加。
第三,Transformer 需要海量數據,會使得汽車數據采集、訓練、标注的成本大幅度上升。
這些一定程度上,也會使得芯片、攝像頭、标注等相關産業廠商受益。
總結
通過對 BEV+Transformer 的梳理,我主要有以下兩點感受。
第一, 爲什麽 BEV+Transformer 會成爲主流範式,我覺得背後核心還是第一性原理,就是智能駕駛要越來越近 " 人一樣去駕駛 ",映射到感知模型本身,BEV 是一種更加自然的表達方式,而 Transformer 實現了 CV 和 NLP 的統一。
第二, 随着工業和學術界的研究推進,近段時間 BEV+Transformer 從普及到走向量産,在當前智能駕駛商業受阻的背景下,或許是一個難得的亮點。但從時間維度上看,BEV+Transformer 已是曆史産物,占用網絡已經來了,大模型也在路上,或許幾個月、最多一兩年之後,一個真正的 " 王炸 " 會出現,會讓之前的積累全部推倒重來,我們要對每一波的叠代懷有敬畏之心,先從技術開始,之後就是商業模式的大變革。
有關算法叠代、大模型、Mapless、GPT 等是我們近期持續跟進的重點,有興趣歡迎随時與我溝通交流。
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App