自動駕駛圈正被 " 去高精地圖 " 風暴席卷。
今年 6 月中旬,一年一度的 AI 頂會 CVPR 2023 在加拿大舉行,同期還有場自動駕駛國際挑戰賽,這場挑戰賽吸引了來自 15 個國家的 270 多支隊伍參賽,有 2300 多件作品投稿,賽況激烈。
出人意料地,打敗衆競争對手,摘下桂冠的,是一家此前從未向外公布過有自動駕駛業務的中國 AI 公司——曠視科技。
曠視在這屆自動駕駛國際挑戰賽的表現相當亮眼。
CVPR 2023 自動駕駛國際挑戰賽分爲四個賽道,而其中 OpenLane 拓撲關系賽道、Online HD Map Construction(在線高精地圖構建)賽道的第一名均爲曠視。
"OpenLane 拓撲關系挑戰賽,本質上是一個通過實時感知來生成地圖的比賽。目前大家對道路拓撲結構(如車道線、車速标識等)的感知,主要是靠高精地圖來提供,而要去高精地圖的話,那就隻能把這些東西感知之後,再構建自己的道路拓撲結構。"
曠視科技智駕業務總裁劉偉對雷峰網解釋說," 這個比賽的現實意義在于,可以讓曠視在‘去高精地圖’這條路上越走越紮實,最終在城區也能實現‘去高精地圖’。"
憑借在這一賽事上的出色表現,一向 " 神秘 " 的曠視自動駕駛業務逐漸浮出水面。
從學術圈到産業界,曠視下場參與自動駕駛賽道競賽并不讓人意外,反倒是時至今日才宣布入局更令人疑惑。
曠視爲什麽選擇在此時進軍自動駕駛市場?曠視做自動駕駛業務的底層邏輯是什麽?其方案有哪些獨特性?競争優勢體現在哪裏?
雷峰網和曠視科技智駕業務總裁劉偉聊了聊。
01 果實成熟了:降本、降本、再降本
從 2021 年初大力研發智駕方案到宣布推出量産方案,曠視用時不到三年。
廢話不多說,我們直接看看産品。簡單來說,曠視的産品分爲三個配置:标準版、專業版、旗艦版,分别對應 10-15 萬元車型、15-30 萬元車型和 30 萬元車型。
其中标準版方案具備高速 NOP 功能,專業版方案具有城市 NOP 功能,最高配置的旗艦版方案則具備增強的城市 NOP 功能以及更強的安全冗餘。
當下曠視智駕業務的發力點則主要在标準版和專業版方案。
" 我們瞄準的是量産市場,曠視希望做到在中低價位車型中達到一年幾百萬輛的銷量,這兩個版本的方案都是不帶激光雷達的,成本相對較低,可以服務于 10 萬 -30 萬元的車型。" 劉偉表示。
在車端,15 萬元 -30 萬元價位是主戰場,近一兩年這一市場正瘋狂進入激進價格内卷戰," 活下去 " ——成爲衆多車企的第一要義。
小鵬汽車就曾在今年年初的年報業績會上預測,國内市場到 2023 年大概隻有 50 家乘用車品牌能走完,5 年後可能隻有 25 家,10 年後可能隻有數家," 接下來的 5 -10 年裏,控制好成本以及創新做到第一的位置才能存活 "。
定位爲智駕方案供應商的曠視,降本、降本、再降本,也自然而然成爲其自研方案時的重中之重。
劉偉透露,通過優化 "BEV(鳥瞰圖)+ 前融合 " 算法、降低算力、去高精地圖、去 RTK、去激光雷達、統一算法框架、自動标注等一系列措施,相比于同行,曠視的智駕方案成本可以下降 20%-30%。
提到 "BEV" 算法,目前業内的智駕方案大多需配置 Orin 大算力芯片,但這在實際上車量産落地時并不容易。
比如原先一些走 L4 自動駕駛技術路線的企業嘗試推出 L2+ 量産方案時,由于以往的路線是多傳感器疊加配置大算力芯片,因此他們普遍面臨的一大挑戰,就是很難滿足車廠的低算力要求。
而曠視對于 BEV 的實現,則已經可以做到在隻有Orin 芯片五分之一甚至六分之一算力的嵌入式芯片上跑通,不僅性能表現非常好,而且目前已經進入到客戶實車 Demo 階段。
劉偉認爲,從本質上看,這是由于曠視的算法本身足夠先進。
曠視對 BEV 有兩個實現的算法模型,一個是 BEVDepth 系列,一個是 PETR 系列,BEVDepth 系列是對 "BEV+LSS" 的實現,PETR 系列則是非常典型對 "BEV+Transformer" 的實現。
BEV+Transformer 架構最早由特斯拉在 2020 年引入自動駕駛産業界。
不過不同于特斯拉占用網絡采用的稠密算法,曠視的 PETR 系列在輸出對周圍環境的各種感知表征時,采用的是稀疏算法。
" 曠視用稀疏的方式來做 Transformer,也能非常好地檢測到長尾場景中的障礙物,同時對算力要求更低,這最核心的意義就是把計算平台的成本給降下來了。" 劉偉表示。
另一方面,爲了降本,曠視還對 " 統一算法框架 " 這件事非常重視,整個研發均圍繞這個目标展開。
一般而言,從旗艦車型到入門級車型,一家主機廠每種車型采用的配置方案都各不相同,供應商方案矩陣相當複雜,這導緻車輛在推出量産時,無論是把握節奏、質量、成本,還是管理和維護不同供應商,都很難控制。
而曠視在做的,則是希望在高中低定位的車型,都采用統一的 BEV 算法框架,做到算法平台化、硬件平台化。
比如在适配高中低不同算力的芯片時,曠視采用 Pin-to-Pin 的系列芯片,即同一套域控可以直接适配不同芯片硬件,如果域控需要适配高算力芯片,就換高算力芯片,如果要适配低算力芯片,就換一個低算力的芯片。
做到這一點後,主機廠各個車型的量産速度将大大加快,質量更好的同時,成本也将大幅降低。
在硬件配置方面,曠視則堅持走以視覺爲主的感知路徑,支持采用實時建圖的感知方式,隻用導航地圖,不用高精地圖,除此之外,曠視還能做到直接去掉 RTK。
"' 去高精地圖’、‘去 RTK ’,這兩個選擇結合在一起,每年又能節省幾百元的成本費用。" 劉偉說。
02 落地 NOP:算法的優化競賽進行時
智駕方案上車,降本是一方面,性能是否能做到讓車廠、讓消費者買單又是另一方面。
當下的智能汽車行業,諸如 AEB 等 L2 級以下智駕功能已基本标配,現在各頭部車廠、供應商們争相落地的重點功能,是介于 L2 與 L3 級自動駕駛之間的 NOP 功能。
所謂 NOP 功能,即車輛可基于用戶設定的導航路線,實現從 A 點到 B 點的智能導航輔助駕駛,主要覆蓋部分高速公路和部分複雜的城市路況。
在曠視看來,在接下來兩三年的時間,高速 NOP 場景将會快速滲透,大多數主流車型,都将采用高速 NOP 方案,同時城市 NOP 場景将在這一時期快速成熟。
而阻礙 NOP 高階智駕方案大規模量産落地的核心因素,就在于目前尚不夠強大的智駕性能,第二重要因素則是居高不下的成本。
" 目前的高階智駕方案還沒有足夠好到、安全到能讓用戶完全放心地使用,爲了追求更好的性能,大家的方案都是配置多顆 Orin X、多個激光雷達,這導緻方案成本會非常高,往往高達幾萬元,隻能在非常高端的車型上使用。" 劉偉指出。
那如何兼顧高階智駕量産方案的高性能和低成本需求?
事實上,所有自動駕駛方案最終的性能、體驗表現等都是由感知上限決定,而自動駕駛作爲一個超強 AI 屬性的産品,其感知的上限則需要靠不斷地優化算法來提升。
曠視判斷,體驗好、成本低的高階智能駕駛産品,必須要有非常強的 AI 能力支撐,而隻有在 AI 能力上有強大實力儲備的玩家,未來才有可能繼續走下去。
其實曠視早在 2018 年就曾關注過智駕行業。
在當時,業内主流的感知技術路線是 "2D 圖像 + 傳統神經網絡 CNN",采用容易導緻信息失真的後融合策略,用人工進行數據标注。
" 這種基于傳統雷達、攝像頭的感知方式,是不能解決高階智能駕駛方案所面臨的問題的。" 劉偉認爲,也因此曠視一直沒有踏足這一産業。
直到 2020 年,特斯拉将以視覺爲主的 "BEV+Transformer" 架構引入自動駕駛領域,2021 年初,特斯拉又在北美推出了升級版 Autopilot 的 FSD,一舉舍棄毫米波雷達,由此智能駕駛路線進入了 " 分水嶺 " 階段,關于走純視覺路線還是多傳感器融合路線,各方争論不休。
而曠視作爲起家于計算機視覺研究的 AI 解決方案廠商,也決定在此時向智能駕駛産業界進軍。
這是因爲曠視認爲,未來高階智駕方案大概率将會走以視覺爲主的感知方式,至于要不要進一步融合毫米波雷達、激光雷達等傳感器,則與各廠家的需求、安全冗餘考量息息相關。
也因此,曠視設計的這一套統一算法框架,除了支持攝像頭,也支持對激光雷達、毫米波雷達等傳感器進行前融合。
甚至在行駛過程中,如果某個雷達或者攝像頭突然無法正常工作,曠視的智駕算法還能确保其它傳感器維持在正常水平,并基于此來判斷要不要進行功能降級,或者降級到何種程度。
曠視向來有相當強悍的原創算法能力,更關鍵的是,曠視的算法并不是空中樓閣,而是真正基于産業界實際需求在研發。
截至目前,曠視智能駕駛業務團隊已達數百人,其中近三分之二是算法研發團隊,剩下三分之一左右則是工程交付團隊。
以 PETR 系列爲例,這是曠視基于 BEV 實現的純視覺 3D 感知框架,目前已叠代至 PETR V4 版本。
通俗來講,這一版本在做的事,就是讓一個多幀長視頻在模型裏跑,本質上是希望模型記住更多的東西,從而做到更好地感知态勢,實現更好的物體跟蹤和預測,由此在 Orin 平台上實現 " 感知、建圖、跟蹤、預測 " 四合一的端到端模型,同時也能在未來進一步降低方案成本。
而前文提及的對多模傳感器的前融合的實現,則是曠視早已在 PETR V3 就已完成的事。
基于此,在智駕視覺方案領域,曠視除了是業内唯一一家把 Transformer 跑在較低算力計算平台的解決方案供應商,還是業内第一個實現 300 米距離視覺感知(現在很多激光雷達廠商的感知距離都達不到 300 米)的廠商。
另外,曠視還在2022 年首創了魚眼 BEV 模型,使得車輛的感知範圍擴大三倍,這讓車輛在泊車場景下,可以很早就感知到周圍的停車位,大大提升泊車體驗,從而支持自動泊車方案去激光雷達,進一步降低方案成本。
" 在行業内,真正具備原創算法能力的團隊是鳳毛麟角的,在這方面,我們還是比較自信的,且這個優勢會持續擴大。" 劉偉如此認爲。
03 從全棧自研到全棧可控:主機廠正變得更爲理性
技術領先并不意味着成功的商業化落地,産品 + 服務才是核心,這背後考驗的是工程化落地能力。
工程化能力意味着解決方案的可複制性、可靠性強、産品架構的統一性高,也意味着供應商可以實現客戶個性化定制的解決方案,同時兼顧不同場景、不同使用者的多樣化需求。
嵌入式的工程化能力、客戶理解能力——這也正是曠視做智能駕駛解決方案,除強悍的算法能力外的兩大核心競争力。
" 比如曾經曠視在做一款芯片時,芯片廠商提供了算子,但這一算子跑起來非常慢,後來曠視自己上,就把算子的性能提升了 100 倍,直接讓 BEV 在這個芯片上的實現,從‘不可能的任務’變成性價比相當好的方案。" 劉偉表示。
從在工控機上實現 demo,到切換至嵌入式系統,有些廠商走了許多彎路,花了兩三年才艱難轉換完成,而劉偉指出,曠視則是非常平滑無縫地就完成了切換," 這是大部分友商都不具備的能力 "。
另一方面,曠視作爲供應商,已在 AI 産業化的路子上已摸索得足夠久,對市場和客戶需求也有足夠豐富的理解經驗和能力。
從商業邏輯上看,不難看出,曠視切入智能駕駛行業的角度,總體還是 "大客戶" 邏輯,即以車廠爲核心,重點與頭部車廠形成戰略性合作關系。
作爲供應商,如何在幫助客戶提高産品競争力的同時,還能持續降本,曠視重視打造自身的軟硬一體能力,強調做到傳感器、芯片和算法之間的協同。
在軟件層面,曠視視覺算法感知的精度逼近于激光雷達,領先的定位建圖算法也能大幅降低其對于高精地圖的依賴,具備更好的性價比和更好的體驗。
在硬件領域,曠視則自研了 AI 傳感器、AI 計算平台,具備完整的硬件生産經驗,并已規模化出貨。
在數據方面,曠視除了會選擇與主機廠合作,還自建車隊收集數據、訓練模型,并利用大模型進一步打磨自動标注工具鏈和能力。
域控方面,曠視則選擇與主機廠和 Tier 1 合作。
一般來說,對于智駕解決方案供應商而言,一個方案有兩種收費邏輯,一個是系統的開發費,另一個則是在系統開發的基礎上,在方案量産上車後收取的出貨費用以及後續的 OTA 服務費等。
而一套智駕方案想要适配到不同的車型,涉及到軟件、硬件、接插件,也涉及到與整車協議的匹配、算法的調整,還有跟車配合的執行機構都要進行重新的标定,這些都指向供應商必須要具備一定的軟硬件協同能力、靈活的合作思維。
一業内人士認爲,全棧自研是一個能力,而不是一個商業模式。
對車廠來說,如果車廠隻希望跟一家公司合作方案的其中一個模塊,車廠也希望這家公司的産品思路跟得上自己。
供應商怎麽能保證和車廠的思路一緻?其實主要還是落地、量産的思路。
" 方案上車,車廠要考慮軟硬件之間的配合、感知與規劃之間的配合,這其中有很多經驗和 know-how,如果你隻做過其中一個功能模塊,會不知道怎麽跟車廠配合。" 該業内人士指出。
值得注意的是,雷峰網近期在和主機廠溝通的過程中,由于此前低估了自研自動駕駛的難度,再加上智駕功能落地後的市場反饋情況不盡如人意、越來越快的車型推出節奏等原因,我們很明顯地感受到,主機廠們對全棧自研的認知和思路正在發生變化。
從主機廠的角度,如今他們對智能駕駛方案的核心訴求正從全棧自研轉向全棧可控,變得更爲理性。
這也給予了曠視在内的供應商們與主機廠們更大和更靈活的合作空間。
" 曠視作爲供應商,打造軟硬一體能力時,主要是從産品性價比的角度出發,看硬件和軟件如何能更好地整合、性能怎樣才會更好、落地成本怎樣才會更低。" 劉偉說道。
在商業化進展方面,曠視智駕解決方案均已進入準量産狀态,比如目前曠視就正在對客戶量産交付專業版方案。
從産業格局來看,雖然智能駕駛領域一直熱度很高,但其實始終并未定型,對于能兼顧強大性能和高性價比需求的智駕方案供應商,市場需求依然很大,行業充滿競争活力,也變數十足。
" 我們現在重點聚焦在量産交付環節,曠視有一個中期目标,就是希望在 2025 年,做到行業前三。" 劉偉如此表示。
雷峰網 # 雷峰網 # 雷峰網