一文看懂BEVFormer技術及其背後價值

圖片來源 @視覺中國

文 | 賽博汽車

從時間維度上看，BEVFormer 已是曆史産物，或許幾個月、最多一兩年後，一個真正的 " 王炸 " 會出現。

2021 年 7 月，特斯拉展示了基于 BEV+Transformer（BEVFormer）的自動駕駛感知新範式，在取得了驚豔的效果後，國内也掀起 " 跟風潮 "。

近期，理想、蔚來、小鵬、小馬智行、百度等多家主流車企、自動駕駛方案解決商推出相關量産方案。

一時間，BEV 越發 " 火 " 了起來。

這背後邏輯也很好理解。一方面，BEV 技術已經日漸成熟，從預研階段基本走到了量産落地階段；另外一方面，今年可能會是從高速 NOA 走向城區 NOA 量産的元年，在更加複雜的智駕場景下，BEV 所帶來的優勢能更好地得到體現。

與此同時，在智能駕駛商業化進展不及預期的大背景下，BEV 也可以作爲相關企業難得的 " 技術賣點 "。

因此，在這個時間節點，我們試圖按照 What-Why-Who-How 的邏輯，對 BEV+Transformer 技術本身，以及背後的商業價值可能性進行探讨。

What：什麽是 BEV+Transformer

首先解決技術概念問題。

BEV（Bird's-eye-view），即鳥瞰圖視角，是自動駕駛跨攝像頭和多模态融合背景下的一種視角表達形式。

它的核心思想，是将傳統自動駕駛２D 圖像視角（Image View）加測距的感知方式，轉換爲在鳥瞰圖視角下的３D 感知。

從實現任務來說，BEV 的核心是将 2D 圖像作爲輸入，最終輸出一個 3D 的框架，在這個過程中，如何将不同傳感器的特征（feature）實現最優表達是難點。

目前行業有兩種常見的方式，一種是正向思維，采用自底向上、從 2D 到 3D 的方式，先在 2D 視角去每個像素的深度，再通過内外參投影到 BEV 空間，通過多視角的融合生成 BEV 特征，但對深度的估計一直都是難點。

另一種方法是逆向思維，采用自頂向下、從 3D 到 2D 的方式，先在 BEV 空間初始化特征，在通過多層 transformer 與每個圖像特征進行交互融合，最終再得到 BEV 特征。

在第二種方法中，因爲 Transformer 的存在，使得 " 逆向思維 " 成爲了可能。

Transformer 是一種基于注意力機制（Attention）的神經網絡模型，由 Google 在 2017 年提出。與傳統神經網絡 RNN 和 CNN 不同，Transformer 不會按照串行順序來處理數據，而是通過注意力機制，去挖掘序列中不同元素的聯系及相關性，這種機制背後，使得 Transformer 可以适應不同長度和不同結構的輸入。

Transformer 問世後，先在自然語言處理 NLP 領域大放異彩，之後被逐步移植到計算機視覺任務上，也取得了驚人的效果，實現了 NLP 和 CV 在建模結構上的大一統，使視覺和語言的聯合建模更容易，兩個領域的建模和學習經驗可以通過深度共享，也加快各自領域進展。

Why：爲什麽需要基于 Transformer 的 BEV

在厘清技術原理後，其實也就理解了 " 爲什麽需要 " 的問題：識别準，精度高，方便和激光、毫米波雷達做前融合等。

具體延展來看，BEV 可以帶來四大優勢。

第一，BEV 視角下的物體，不會出現圖像視角下的尺度（scale）和遮擋（occlusion）問題。由于視覺的透視效應，物理世界物體在 2D 圖像中很容易受到其他物體遮擋，2D 感知隻能感知可見的目标，而在 BEV 空間内，算法可以基于先驗知識，對被遮擋的區域進行預測。

第二，将不同視角在 BEV 下進行統一表達，能極大方便後續規劃和控制任務。主流規劃和控制算法，不論上遊傳感器信息來自什麽視角，經過融合之後，都會轉換到以自車爲中心坐标系中（Vehicle Coordinate System，VCS），對 VCS 來說，最适合的其實就是 BEV 視角，也就是 BEV 感知結果輸出的空間是規劃和控制任務的标準輸入。

第三，BEV 能夠給系統帶來巨大的提升。攝像頭感知算法工作在 2D 空間，而雷達感知算法工作在 3D 空間，在對 2D 與 3D 幾何關系融合過程中，會丢失大量的原始信息，采用 BEV 感知系統中，攝像頭、激光雷達、毫米波雷達感知均在 BEV 空間中進行，融合過程提前。BEV 還可以引入過去時間片段中的數據，實現時序融合，最終使感知效果更加穩定、準确。

第四，BEV 能夠實現端到端優化。感知任務中的識别、跟蹤和預測本質是一個串行系統，系統上遊誤差會傳遞在下遊誤差，在 BEV 空間内，感知和預測都在同一個空間進行，可以通過神經網絡做到端到端的優化，輸出 " 并行 " 結果，而整個感知網絡可以以數據驅動方式來自學習，實現快速叠代。

可以理解爲，BEV 可以實現将 360 度環視的時間、空間融合，再加上 Transformer 架構可以輸出靜态的車道線、紅綠燈、道路邊緣信息等，以及動态的有行人、兩輪車、汽車等，同時還應用了端到端的預測能力，結合時序幀能對周邊的車輛做未來 3-6 秒的軌迹預測。

這也意味着，端到端的算法有了閉環的希望。

Who: 行業最佳實踐是特斯拉

特斯拉是第一個在工業界采用 BEV＋Transformer 進行視覺感知任務的企業。

在其感知任務中，首先利用主幹網絡對各個攝像機進行特征提取，再利用 Transformer 将多攝像機數據從圖像空間轉化爲 BEV 空間。

在這個空間裏面，通過深度學習去完成一個特征的融合，然後再通過一個 3D 的解碼器，直接端到端輸出最後的一個 3D 檢測和道路結構信息，這樣下遊的規劃與控制直接可以在 BEV 的空間上去進行。

這一次革命，讓馬斯克可以自信地對外宣稱，特斯拉感知不依賴激光雷達和毫米波雷達，依靠純視覺，也可以得到準确三維世界信息。

基于以上實踐，衆多車企以及智駕供應商都開始嘗試 BEV+transformer，車企裏的代表蔚來、理想、小鵬；智駕供應商裏面的百度、毫末、地平線、小馬、輕舟等等，在具體使用方法上每一家有 " 微調 "，但是整體還是跟随特斯拉的節奏在走。

How：自動駕駛感知的主流範式

未來，BEV+Transformer 很有可能會替代之前的 2D+CNN，逐步成爲自動駕駛感知的主流範式。

這意味着，從硬件芯片開始，到傳感器攝像頭、軟件算法、模型部署、數據采集标定等，都需要有相應的适配和變化。

第一，爲了确保視覺感知重疊，對汽車攝像頭數量的要求會有所提升，相應地，激光雷達的數量以及在感知中的作用會減少，也就是純視覺技術路線會受到更多的青睐。

第二，Transformer 是暴力美學，模型體量驚人，其運算還會消耗大量的存儲及帶寬空間，對芯片來說，除了需要進行相應算子适配以及底層軟件優化外，在 SOC 層面需要對緩存和帶寬要求進行增加。

第三，Transformer 需要海量數據，會使得汽車數據采集、訓練、标注的成本大幅度上升。

這些一定程度上，也會使得芯片、攝像頭、标注等相關産業廠商受益。

總結

通過對 BEV+Transformer 的梳理，我主要有以下兩點感受。

第一，爲什麽 BEV+Transformer 會成爲主流範式，我覺得背後核心還是第一性原理，就是智能駕駛要越來越近 " 人一樣去駕駛 "，映射到感知模型本身，BEV 是一種更加自然的表達方式，而 Transformer 實現了 CV 和 NLP 的統一。

第二，随着工業和學術界的研究推進，近段時間 BEV＋Transformer 從普及到走向量産，在當前智能駕駛商業受阻的背景下，或許是一個難得的亮點。但從時間維度上看，BEV＋Transformer 已是曆史産物，占用網絡已經來了，大模型也在路上，或許幾個月、最多一兩年之後，一個真正的 " 王炸 " 會出現，會讓之前的積累全部推倒重來，我們要對每一波的叠代懷有敬畏之心，先從技術開始，之後就是商業模式的大變革。

有關算法叠代、大模型、Mapless、GPT 等是我們近期持續跟進的重點，有興趣歡迎随時與我溝通交流。

更多精彩内容，關注钛媒體微信号（ID：taimeiti），或者下載钛媒體 App