商湯絕影蔣沁宏：智能駕駛算法平台化加速NOA量産落地

近年來智能駕駛成爲汽車行業的焦點，随着軟硬件性能的提高，廠商們也開始了向更高級别的自動駕駛邁進的研發之路。

從簡單的控制汽車橫縱向移動到點對點自動駕駛功能的完美實現是衆多汽車廠家及供應商鑽研的方向。

在一定程度普及 ADAS 功能後，依靠高精地圖導實現自動駕駛的領航輔助駕駛（NOA）開始慢慢的出現在大衆視野裏。

在此賽道上不乏一直走在智能領域前端的科技公司，如何更好的滿足主機廠的需求，實現産品的快速落地可能是科技公司首先需要思考的。他們又是如何應對此挑戰的呢？

雷峰網新智駕邀請了商湯科技絕影量産智能駕駛總監蔣沁宏來進行業内分享。以下爲蔣沁宏的演講内容，雷峰網新智駕進行了不改變原意的整理：

大家晚上好，我是來自商湯絕影的研發總監蔣沁宏，負責量産行車和感知算法的研發工作。

今天的分享主題：智能駕駛算法平台化加速 NOA 的量産落地。主要介紹下當前絕影的産品方案，以及在産品和項目叠代過程中的一些研發思考和部分算法。

内容主要會分三部分：

1.SenseAuto Pilot 産品方案

2. 絕影的技術思考

3. 部分算法概覽

SenseAuto Pilot 産品方案

商湯絕影目前有低中高三套産品方案，對應不同的傳感器配置以及域控平台。低配方案是 1R6V 加 12 個超聲波雷達，支持到 L2 智能輔助駕駛以及記憶泊車，可部署在 8 TOPS - 24 TOPS 的芯片平台。中配的方案，是目前市面上比較常見的 5R11V 外加 12 個超聲波雷達方案，支持到高速領航駕駛以及記憶泊車，可部署在 32 TOPS - 100 TOPS+ 的芯片平台。高階方案相比于中配方案額外增加 3 顆激光雷達，對應的平台算力也比較強，在駕駛功能上可以拓展到城市領航輔助駕駛。

以上方案均已兼容國内外的主流芯片平台。

·低配方案

低配方案主打性價比，可以支持 L2 智能輔助駕駛，駕駛員指令變道和記憶泊車。傳感器方案上，在前向采用 120 度 8M 相機，後向采用 60 度 2M 相機，4 顆魚眼相機模組，1 顆前向毫米波雷達，以及标準的 12 顆超聲波雷達。最大程度複用傳感器感知：在行車時，側向魚眼會同時提供目标、障礙物以及車道線的感知；但因爲魚眼相機的畸變大，感知距離有限，所以不推薦基于該方案實現高速的主動變道功能；在泊車場景下，這套方案也會完全複用各個傳感器。

·中配方案

中配方案是當前比較常見的 5R11V 方案，前向相機切換爲 30 度窄角和 120 度寬角。30 度相機的加入可以實現更遠距離的前向感知，并支持如 TSR 等的小目标感知，車輛、障礙物的感知距離也會增加。其次爲了增強側向感知能力，方案配置了 4 顆側向的攝像頭以及 4 顆角雷達，這樣可以使側向的感知距離以及對障礙物的位置、速度估計精度有大幅的提升。

此配置可以支持高速領航駕駛（高速 NOA）。此外，和低配方案一緻，也是複用傳感器的行泊一體方案。

·高配方案

高配方案中，前向攝像頭均爲 8M 相機模組，前向感知距離進一步提升，同時引入了三顆激光雷達，一顆正前向，兩顆補盲，增強障礙物位置精度的同時，提供更多通用未知障礙物感知功能。在城市場景當中能夠支持窄路通行等功能。在泊車場景下，激光雷達還能夠使建圖及定位的精度會獲得較大提升。

絕影的技術思考

商湯絕影的研發模式爲基于數據驅動的平台型研發。數據驅動可以使不同平台的數據共享，從而幫助算法性能的提升，通過平台型研發賦能不同的産品和項目。在此研發範式下，有三個比較關鍵的因素：

首先是駕駛場景數據，即如何拿到入口，能夠有更豐富的業務場景數據來源。

其次是數據獲取效率，即如何較快地去獲取這些數據。兩個維度：一方面是如何基于新計算平台快速地使能車輛跑起來，實現閉環叠代；另一方面是如何快速實現數據回流。

最後，最關鍵的是數據利用效率，也即場景數據到手後，進一步探索如何高效地利用數據。

從技術思考來看，我們希望通過海量的數據和平台化的技術研發助力算法提升，進而在不同的項目、平台和産品上獲得産品性能的提升。

·駕駛場景數據

到目前爲止，商湯絕影與 30 多家車企建立了共榮共生的合作關系，2022 年我們與一汽、廣汽簽署了戰略合作協議，和多家車企廣泛開展量産合作，幫助我們有效獲取駕駛場景數據叠代算法。

·數據獲取效率

面對不同的硬件平台和底軟，如何快速實現閉環叠代以及經驗共享是關鍵。我們開發了一套全平台一體化工具鏈。

首先對于域控系統的中間件開發，商湯絕影擁有自研中間件的開發能力，也支持基于集成供應商提供的第三方中間件進行開發。針對不同中間件，做了統一适配層（RSCL ) 封裝，屏蔽不同的中間件和底軟的差異，爲上層 SenseAuto Pilot 應用軟件提供統一化接口，同時包括錄制回放、性能分析、數據的切分、可視化等工具鏈都基于統一适配層實現。這樣可以保證在不同的項目中，應用層代碼、開發的工具鏈以及數據完全共享。這裏提到的數據不僅僅是點雲、圖像層級的原始數據，也包括中間結果數據。

針對模型部署推理，不同的芯片平台有不同的深度學習庫和不同的推理方式。商湯有專業的工具鏈團隊，負責開發統一平台部署系統，屏蔽不同的推理後端和模型格式。舉例來說，A 芯片平台當前不支持 Transformer 算法相關算子，但支持類似矩陣乘法、并行加速等基本開放接口，我們的 PPL 團隊會基于這些接口，開發對應的高性能算子，并和平台原生算子一起整合到部署系統中。部署系統會自動地進行網絡圖的切分、格式轉換、無縫支持該平台不支持的算子。對于研究員來說，不管後端究竟是什麽模式，也能夠使用相對标準化模型推理的接口。

有了這些，我們在面對一個新的平台和底層軟件系統，完成從 0 到 1 完整的搭建，隻需要一到兩個月的時間。這也是絕影可以支持衆多芯片平台的底氣。

·數據利用效率

在擁有完整的研發體系後，如何較快、較好的利用這些數據，商湯做了兩件核心的工作：建立人工智能數據中心，和建立遍布全球的人工智能超算集群，目前總計擁有大概 4.91exa FLOPs 算力。基于 AIDC 基礎裝置，我們在 2021 年底發布了名爲書生（Intern）的超大模型，是視覺模型領域業界最大的模型。同時，借助書生超大模型和超算中心，我們搭建了自研的數據閉環自動化體系。

獲取數據後，如何高效利用數據，涉及數據的自動化生産。

針對駕駛業務場景，我們開發了視覺的超大模型（通才模型）以及基于駕駛業務場景數據的訓練得到的模型（專才模型）。基于這兩個模型，對從車端導出的無标簽原始數據進行推理，并基于規則對推理結果進行質量檢查。低質量、判斷不達标的數據送給質檢員，質檢員會做進一步檢查以及精修（Refine），最後生成高質量的數據标簽。

通過這套體系，不管是标注的速度、成本，還是模型叠代的速度都有了較大的提升。就檢測任務來說，目前基本不需要人工标注 2D 數據，标注速度對比之前有約 600 倍的提升，成本也有着百倍量級的下降，叠代速度約爲之前的 18 倍。

針對自動駕駛海量的數據，需要建立對應的标簽體系。絕影的标簽體系分爲四個細分的領域：交通參與者、交通設施、動物以及路上的其他障礙物。标簽層級目前有 6 層級，總的标簽數量 3000 多個。同時我們建立了一套自研的數據篩選引擎，針對不同條件進行數據篩選及過濾，可以使數據的獲取成本降低約 94%。

算法的概覽

·長尾模型研發

語義層級的細化可以帶來駕駛風格的提升，從而讓用戶體驗更加智能的系統。因此感知語義層級的細化能夠帶來智能駕駛功能的升級。這些語義标簽都符合長尾分布。

長尾問題的解決關鍵，一方面是長尾模型的研發，另一方面是數據體系建立。

數據上，會基于超大模型做數據挖掘。首先是基于 Clip 的冷啓動，在現有的數據庫裏做對應的圖像搜索。有了這部分數據後，進行特定檢測模型的孵化，保障它能有較高的 recall。然後會把該模型部署在車端，自動地在開集的世界裏打标收集數據，并回流到雲端，進入大模型的打标過程，生産對應的标簽。

針對模型的研發，我們通常采取的方式是：首先針對某一款芯片平台進行模型結構搜索，搜索得到對應的模型庫也就是對應的候選檢測模型 List。通過自動的數據标簽，以及知識蒸餾等進行算法的訓練，得到最終的 end model。

我們完成一個長尾模型的研發，通常不會超過 1 周時間。

·BEV3D 感知

商湯絕影在目前所有的項目包括量産平台上所涉及的平台，都實現了 BEV 3D 感知的落地。

BEV 3D 感知的核心優勢在于提供了一個适合自動駕駛的特征表達形式，對遮擋目标的檢測，穩定性效果更好，對車道線遠距離感知以及大弧度彎道等檢測更加完善等等。近來大家讨論火熱的輕地圖方案，也是以 BEV 表達爲基礎的。

BEV3D 感知關鍵不在于模型算法，而在于數據生産。爲此我們構建了一套全自動化的真值系統。基于 Camera 與 LiDAR 大模型，以及 LiDAR SLAM 和離線 MOT，我們搭建了一套支持動靜态目标，道路結構 3D 高保真還原的真值系統。針對實車傳感器容易出現的問題，我們建立了時空對齊的自動化檢驗，能夠實現原始數據的半自動化清洗。同時借助于我們 AIDC 大模型上的一些體系技術，實現了多機多卡的處理，能夠支持 1000 多張卡的自動化并行處理流程。另外我們還構建了自動化生産平台，操作節點之間構成一個 DAG，自動化執行真值系統算法生産，平台每天定時查詢車輛新增數據，自動觸發真值的生成并更新數據庫。

當算法部署在多個量産車型時，相機安裝位置、型号不盡相同，會引入 Depth Shift 和 FOV GAP 等跨域泛化問題。針對此問題，商湯絕影基于數據增強，知識遷移等方案，将無标簽數據逼近有标簽結果，可以有效解決不同産品項目的數據共享，以及新項目的算法冷啓動問題。

這兩年商湯絕影在端到端的自動駕駛、BEV 的算法方案預訓練、知識遷移與泛化性等相關學術領域，發表了多篇頂會和期刊論文。商湯在 2022 年環視感知算法 BEVFormer++ 獲得了 Waymo 挑戰賽冠軍，2023 年與上海人工智能實驗室合作端到端自動駕駛 UniAD，拿到 CVPR 2023 Award Candidate，并會競争今年 CVPR Best Paper。如果有感興趣的小夥伴，不管是實習還是全職，也歡迎加入我們。

以上就是我今天的分享内容，謝謝大家。

Q&A 環節

1. 激光雷達在城市 NOA 中是否必須？激光雷達解決哪些場景？

從目前叠代來看，激光雷達在城市場景中還是非常必要的。一個是城市場景裏交通參與者有非常強的不确定性，比如說行人、騎電動車的亂穿馬路等，需要激光雷達去提升這部分感知物體的精度。另外在城市場景下會更多奇形怪狀的障礙物，激光雷達能夠更好地識别這種非結構化或者非标準化的障礙物，更好地應對城市場景。

2. 數據驅動這一塊兒從哪方面入手？幫助算法或者開發做功能開發的替代 HIL？

應該是兩個事， HIL 更多指的是對整個系統進行的離線硬件在環測試。數據驅動則是指我們在算法研發的時候，從頂層設計來講，就希望算法是通過數據驅動來實現的，而不是通過規則實現的。

舉一個簡單的例子，比如 BEV 3D 感知。

目标感知傳統的做法是每個相機單獨進行障礙物的感知，然後再把多個相機的結果進行融合。這就是一套基于規則或者說基于傳統的貝葉斯濾波來實現的。

我們希望盡可能的把這些過程放到模型或者數據裏面，對應的做法就是 BEV 3D 感知，直接在模型裏就能夠輸出多相機的感知結果，這是我們說的數據驅動的思路。

3. 請問部署的 BEV 方案用的是 BEV Former 嗎？

看平台 , 和部署效率相關。BEVFormer 或者目前業界比較常見的基于 LSS 的方案，它對應的 BEV Feature 是非常稠密的 , 一些低算力平台不太能夠吃得消。因此我們在一些低算力平台，也會用一些稀疏的方案，不會去構建 BEV 完整的 Feature，而是針對 query 去拿相對稀疏的信息。但其它任務，比如我們想要進行 Occupancy 預測，或者進行全場景的感知任務，則需要稠密 BEV Feature，這個目前在用的是 BEVFormer。但目前在量産上，BEV 特征方案其實不是最關鍵的，更關鍵的是比如圖像輸入大小，後面的任務是基于 Transformer，還是基于一個傳統的 Detection Head 等，怎麽建模該任務等，這些事情相對而言會更關鍵一點。

4. 毫米波雷達的路沿使用效果如何？爲何沒有用作路沿監測？

其實是有用的，我們在不帶激光雷達方案下的目标融合模塊，會用毫米波做一些高速路沿相關的任務，主要是輔助我們做一些 FP 濾除工作。

5.BEV 隻能通過 Camera 的光流信息捕捉實現嗎？LiDAR 和 RADAR 是否在其中有價值？

BEV 不隻是對相機。之前大家做算法任務時，思考都是以傳感器視角的 Front View 形式。而 BEV 提供了一個更适合自動駕駛的全新研究範式，它的來源最早應該是在激光雷達領域，空間特征的表達不再是以 Front View 形式，而是以自車爲中心，通過鳥瞰圖的形式把它拍平來做特征建模。這種特征建模對于激光雷達還是毫米波雷達都是有天然優勢的，它們可以非常方便的加入進來。

6. 商湯的 BEV 算法相比同行有哪些領先之處？

其實前面的分享有陸續提到。首先在學術研究上，我們肯定是站在最前沿的，不管是國際挑戰賽，還是學術論文。同時我們會更多地做量産上的思考，強大的部署團隊使得我們在低算力平台也能夠實現 BEV 算法；自動化的真值系統；對算法冷啓動泛化性地考慮等。

7.Clip 冷啓動是通過預先搜索收集包含潛在标簽的數據集嗎？

是的。

比如說清障車，首先會在曆史的數據集搜索，生産一個小模型或者車端的模型。這時更多的是保證它的 Recall，如果曆史數據不夠多，我們會把 Recall 比較高的小模型部署到車端，把車端數據拿回來，再通過大模型打标以及生産形成閉環。

8. 貴司的 AIDC 實際使用效率如何？有新項目導入，算力資源充沛嗎？

商湯 SenseCore AI 大裝置持續擴建，完成 2.7 萬塊 GPU 的部署并實現了 5.0 exaFLOPS 的算力輸出能力，以 AI-as-a Service （AIaaS）的模式面向行業夥伴提供服務。目前可最多支持 20 個千億參數量大模型（以千卡并行）同時訓練，最高可支持萬億參數超大模型的訓練。

除自用外，SenseCore 目前服務 8 家客戶進行大模型訓練，總共提供 7,000 多張 GPU 卡；對外提供的 AIaaS 具體包括了計算基礎設施服務 ( IaaS ) 、深度學習平台服務 ( PaaS ) 、模型部署及推理服務 ( MaaS ) 三大部分的能力。

9.TDA4 上部署 BEV 後還能再部署其他模型的空間嗎？還是說一個 BEV 可以實現多任務模型？

我們現在在 TDA4 上是可以同時部署其他模型的。基于 BEV 多任務實現目标 + 車道線的感知；然後還有一套 2D 檢測的融合模型，比如交通燈、标志牌、光斑檢測等内容，是一個額外的模型。

10. 友商都在強調自己 BEV 落地速度的領先，您認爲 BEV 方案的質量該如何評價？

評價質量，我認爲有兩個方面，一是每個任務都有自己的評價指标，例如感知目标結果跟激光雷達、高精地圖相比的絕對誤差，穩定性等。另外一個評價偏結合後的應用，舉個例子對車道線還有目标的預測結果，在 BEV 空間下的對齊效果，這就更多的是結合實車或者結合規控的角度來看這個問題。

11. 傳關于行人和車輛的軌迹預測用什麽傳感器算法？對于人流量大的十字路口的場景好用嗎？

我們現在在車端部署的是基于結構化數據的預測，當前展示的端到端的還沒有部署到我們的車上。基于結構化數據，不太關心數據是來自于什麽傳感器，而是重點基于目标的 3D 位置、速度信息進行預測。

路口的預測确實比較難，特别是對于人的預測一直是個難點，這也是我們目前在解決的一個問題。它的難點在于本身真值就有多樣性，比如怎麽預測人下一秒究竟是要往前走還是突然掉頭，是一個非常難的問題。

我們認爲，預測不單純是感知的問題，還是規控的問題，需要把預測跟規劃放到一起做考量，類似于博弈或者相互之間 Social 的建模。

12. 車道線是 BEV 分割給的嗎？

車道線現在是 BEV 給的，但商湯不是用的分割方案，而是基于矢量化方案。

我們今天的直播就先到這，非常感謝大家，感謝主辦方。