圖片來源 @視覺中國
文 | 汽車像素,作者 | 張家磊,編輯 | 冒詩陽
11 月 28 日,智界 S7 正式上市。作爲華爲與奇瑞合作的首款車型,從誕生之初便引起了不小的關注。值得注意的是,這款車與問界 M5、M7 一樣,都隻裝配了一顆激光雷達。
在高端車型上将激光雷達數量減少至一顆,說明在華爲的智駕方案中,單激光雷達已然足夠。從 2022 年首次有合作車型上市以來,華爲智駕方案的激光雷達數量從三顆逐步減少至目前的單顆。與此同時,華爲智駕方案也經曆了從 ADS 1.0 到 ADS 2.0 的演變。
華爲的選擇,是智能駕駛終于走出堆料時代的一個縮影。本文詳解華爲的智駕方案,以及 GOD 網絡可能的技術原理。硬件方案上 " 靈魂減配 " 的背後,華爲智能駕駛同樣面對傳感器融合的難題,尤其以激光雷達和攝像頭的融合挑戰最大。
11 月 26 日,華爲智能駕駛核心業務将建立合資公司的方式曲線實現 " 獨立 ",那麽 ADS 2.0 方案,真的成熟到可以獨自成長的地步了嗎?
華爲智駕硬件的兩次 " 減配 "
從華爲智駕到鴻蒙智行,華爲的智駕方案經曆過從 ADS 1.0 到如今 ADS2.0 的演變。1.0 時代,智能駕駛的未來路線還不太清晰,從各種傳感器到高精地圖,華爲可以說把能想到的都用上了。
比如在 2022 年 4 月首次合作推出的極狐阿爾法 S HI 版上,這款車配備了三顆激光雷達,相似的硬件配置方案,也用在了同年 8 月推出的阿維塔 11 上。
智駕硬件上的堆料,直接推高了車的終端售價,兩款車最終定價都觸及了 40 萬元的高位。但智駕堆料堆出了高定價,堆出了汽車品牌追求的高端産品,卻沒有爲智能駕駛用戶體驗的落地鋪出路來。
包括華爲在内的智能駕駛研發團隊一直沒有解決的一個問題是,這些五花八門的傳感器之間,所面臨的 " 語言不通 " 障礙。
多傳感器的融合是十分困難的,其中最有代表性的就是激光雷達和攝像頭的融合。前者提供點雲信息,後者直接給出圖像信息。
激光雷達的工作原理是這樣的:通過發射脈沖光束,測量光束觸碰周圍物體後所反射回來的時間,由此來計算被測物體的距離。它的好處是精準和适應性強,可以達到毫米級的測距精度。可以在各種環境中使用,包括光照強烈和惡劣天氣。
雖然可以準确的感知周邊環境的三維信息,但激光雷達隻能提供稀疏特征數據,行業裏稱之爲 " 點雲信息 "。而攝像頭卻能直接采集出圖像信息,提供給系統算法,自動分析圖像并識别出其中的各種物體,由此來更精準的做出駕駛決策。
激光雷達與攝像頭的差異
也就是說,激光雷達雖然精準可靠,但無法單獨支撐智能駕駛功能的叠代。如果華爲不想向特斯拉一樣走向純視覺的方案,多傳感器之間的融合,是必須解決的問題。
如何做好傳感器之間的融合一直是個難點。目前行業中探索的主流融合方式之一,稱爲點級,這套方案,需要将激光雷達和攝像頭在車上的位置,進行高質量校準,極其精密的對齊,才能讓兩者的内容完全重合,如此來實現兩組傳感器的之間的 " 硬關聯 "。
但這是一套脆弱的融合方式,如果車輛行駛中産生的颠簸,讓傳感器發生輕微的位移,那很小的誤差也會造成對齊失敗。
此外,這種融合方案會浪費很多數據。比如激光雷達所采集到的稀疏矩陣數據,在與攝像頭這種稠密矩陣數據進行融合的時候,會浪費大量具有豐富語義信息的圖像特征。另外在圖像特征質量比較低的時候,性能會大幅度下降。
今年 4 月 16 日,華爲發布了自己的 BEV+Transformer+GOD 方案,爲如今華爲更成熟的 ADS2.0 方案打下了基礎。與特斯拉的純視覺不同的是,華爲在傳感器硬件上,依然保留了一顆激光雷達,采用的是多傳感器融合的方式。那在這個方案之中,華爲是如何解決激光雷達和攝像頭的融合問題呢?
對于 GOD 技術的細節,華爲沒有做特别詳盡的解釋。但我們在 2022 年華爲與香港科技大學、香港城市大學發布的這篇論文裏,可以看到華爲解決激光雷達和攝像頭融合問題的一些可能的方式。
首先通過激光雷達的點雲數據,初步獲得行車環境的特征圖,再基于特征圖,用 Transformer 結構的解碼器,預測一個初始邊界框,大概的将行車環境中,所需要注意的物體框選、标注出來,得到含有距離信息的邊界框。
到這一步,系統仍然處理的是激光雷達所采集到的信息,處理完激光雷達的信息後,系統會将這些信息投影到攝像頭采集到的圖像上,把 2D 圖像的特征融合進去,給邊界框賦予語義信息。
這裏面很重要的一個工具,是大模型 Transformer,它能夠自适應地尋找 2D 圖像與 3D 點雲的關聯。對硬件的對齊要求也沒那麽高了。
通過 Transformer,華爲可以讓雷達和攝像頭,兩個傳感器之間的硬關聯,變成了軟關聯。這樣就可以得到一個包含詳細距離信息,系統又能看得懂的感知數據了。
爲了提高對小物體檢測的穩健性,系統再次導入整個高分辨率的圖像。通過 Transformer 中的交叉注意機制,以一種稀疏到密集的、自适應的方式将 2D 圖像再次融合。使得系統能夠自适應地确定,應該從圖像中獲取哪些信息,包括信息的位置和性質。來對之前的邊界框進行增強,讓小物體的識别更加精準。
解決了傳感器融合的問題後,華爲就能讓 GOD 網絡獲取更加豐富的感知數據,能幫助神經網絡模型更好地感知和理解車輛周圍環境。再通過 GOD 網絡自主學習,構建 3D 世界模型。
激光雷達的取舍
華爲爲什麽要大費周章的建立 GOD 網絡,而不是像特斯拉一樣,采用一套純視覺的智能駕駛方案呢?
事實上,華爲乃至整個智能駕駛行業,都沒有停止對特斯拉的學習。
2021 年,特斯拉 FSD Beta 開始采用了一套基于 BEV+Transformer 的智能駕駛方案,BEV 即鳥瞰圖,它就像是爲智能駕駛打開了一個從空中俯視上帝視角,讓車輛能夠把近處的感知統一放到一個平面中。
特斯拉的方案,爲華爲和其他埋頭苦幹的智駕公司,提供了另一種思路,華爲在 ADS1.0 時代,也采用了這項組合技術。
但 BEV 框架還是不能解決所有問題,智駕系統需要先識别面前的是什麽物體,才能做出相應的決策。如何識别前方物體呢,就需要依靠大量的系統訓練,将一個個識别成功的物體,放進智駕系統所建立的 " 白名單 " 中。
可是 " 白名單 " 不足以覆蓋實際交通環境中出現的海量障礙物類型,真正複雜的交通場景下,白名單永遠都填不滿。另外,感知系統隻能識别到之前見過的物體,而沒有辦法識别一些異形的物體。
BEV 視角下的點雲信息
這項技術有一個硬傷,就是鳥瞰圖是一套隻有橫縱坐标的二維圖像,無法在 Z 軸上,感知到高度信息。
也就是說,特斯拉的這套方案可以讓姗姗學步的智能駕駛走起路來,卻還是不能保障走路時不摔倒。
特斯拉很快找到了自己的解決方法。2022 年的特斯拉 AI Day 上,OCC 占用網絡被引入,它通過大量的分析和訓練,将多個攝像頭提供的 2D 圖像信息,在 3D 空間中還原。用無數個小體塊來展現現實世界。
但到這一步,國内智能駕駛方案商卻跟不上了。實際上,純視覺 FSD 真正的難點在于海量的駕駛數據,除了采集數據,更需要一個強大的模型,來對智能駕駛方案進行訓練。
特斯拉自研芯片和 Dojo 模型,外購 GPU 将雲端算力堆到 10 Exa-flops,就是爲了處理大量的傳感器數據,并進行深度學習和模型訓練。
如果國内智能駕駛方案商貿然模仿,自家智能駕駛技術進步速度,可能永遠也追不上特斯拉,華爲不甘心隻當一個追随者。
原本國内的新勢力們解決這個問題的方式是依賴高精地圖。在發現高精地圖因爲成本和更新不及時的問題,而無法長久應用後,大家紛紛開始研發自己的方案,華爲就是其中之一。
華爲所建立的多傳感器融合方案,就是爲了避開特斯拉 OCC 花在将 2D 圖像還原成 3D,所需要的那部分複雜計算。通過加上一顆激光雷達,提供更加詳細的距離信息,華爲降低了數據分析的難度,對雲端算力的需求也相應降低。
此外,在國内複雜的城區路況下,對近距離測距的精準度要求更高,比測試場地中更棘手的 case 多很多。這顆激光雷達就可以對前方障礙物進行詳細測距,再與攝像頭的數據精準匹配,得到更爲準确的數據。并且在暗光、大光比、雨霧天氣這種攝像頭識别不那麽準确的時候,也可以穩定輸出感知數據。
雖然眼下華爲保留單激光雷達的方案,在裝車的硬件成本上,仍然會高于隻有攝像頭的純視覺方案,但研發投入、時間周期,也是需要被計算的成本。
如今,在華爲智駕方案不斷叠代的途中,特斯拉的純視覺方案 FSD 已經很久沒有披露出進展了。也許,融合激光雷達的智駕路線," 總成本 " 更低。
智能駕駛方案叠代到現在,算法已經不是各家競争的焦點。在數據量不足的時候,面對不同城市的複雜路段,難免出現漏洞。如何快速獲取行駛數據,并在短時間内将訓練結果 OTA 到車輛,才是加快開城速度的關鍵。
從競争者蔚小理的部署情況來看,也許明年,輔助駕駛的數據競争賽,就要正式開始了。
與這幾家企業一樣,華爲計劃今年年底開通全國的無圖城區智能駕駛,壓力一點都不小。
按道理來說,輔助駕駛開通之前,車廠都應該用自己的車隊跑一遍,給大模型的訓練一個基礎的數據。但全國都跑的話,需要耗費大量的時間和人力、算力。如果直接開通給用戶,短時間内大量的數據湧入,也會讓華爲不堪重負。優先開通 " 通勤模式 ",讓各地的車主在同一路段反複跑,對大模型反複進行 " 自訓練 ",也許是比較穩妥的方式。
華爲的融合方案,就單車的硬件和計算成本來說,肯定是有所增加的。融合算法必須證明自己在 " 總成本 " 上更具性價比,才有可能被大規模的鋪開。多去路上收集實戰數據持續訓練 AI,才能讓車輛越 " 開 " 越聰明。
華爲打算如何面對這些挑戰,我們也隻能拭目以待了。