文 | 極智 Gee Tech
城市 NOA,自動駕駛進化之路上的關鍵節點,也被視爲智能汽車下半場的開端。
自 2023 年上海車展以來,有關城市 NOA 的路線之争逐漸明晰," 重感知 + 輕地圖 "、借助純感知和融合感知路線、以及 BEV+Transformer 模型的智能駕駛解決方案,成爲業界共識。
如今,城市 NOA 邁向商業化落地競争,如何利用高效的算力支撐、完善的算法模型、大量有效的數據形成閉環,是大規模量産的關鍵。
數據成爲高階智駕 " 稀缺品 "
在智能駕駛領域裏,數據就是生命之源。沒有數據,那些複雜的算法和模型就如同幹涸的河流,無法滋養出智能的果實。
端到端時代讓數據的重要性空前提升。在傳統基于規則的算法時代,工程師将如何執行駕駛行爲凝練成爲規則寫入自動駕駛算法,當模型出現問題時,修改或添加新的規則即可完成對問題的修複。
而對端到端自動駕駛算法而言,模型隻會通過駕駛的視頻片段學習駕駛行爲和對環境的理解,因此如何将人類想要讓模型學習到的内容賦予到數據中,并讓模型在訓練中能夠學習這些先驗知識難度較高。因爲每個人類駕駛的視頻片段其實都包含豐富的駕駛行爲,讓模型理解到這些視頻片段中的某一種抽象化的先驗知識(如左轉讓直行)并不容易。
端到端技術的核心在于通過大量數據訓練模型,使其能夠識别和預測各種駕駛場景。高質量數據的輸入,直接決定了模型輸出的準确性和可靠性。這些數據不僅需要涵蓋各種道路條件、天氣變化和交通情況,還要确保其标注的準确性和多樣性。
傳統模塊化算法需要改變控制策略時,可以找到代碼中具體的幾行參數修改,之後測試 1% 的案例即可,而端到端的算法中,小的改動需要重新對自動駕駛算法進行訓練,難度可想而知。因此,海量的、多樣化的、優質的數據不可或缺,同時自動化、高水平的數據處理體系亦至關重要。毫不誇張地說,數據會占據端到端自動駕駛開發中 80% 以上的研發成本。
從數據維度看,海量且優質的數據正成爲自動駕駛行業的 " 稀缺品 "。通常,激光雷達的算法要滿足自動駕駛的性能要求,需要至少幾十萬幀的數據訓練。單目攝像頭要求更高,需要百萬幀的訓練數據。不過這兩者和 BEV 方案比起來,差距仍然十分巨大。
自動駕駛采用的 BEV 感知方案,需要達到 1 億幀以上的訓練數據才能滿足車規要求,否則泛化性、準确率和召回率就難以保障。
對于端到端算法而言,數據的需求激增,并且伴随模型體量的增加而擴大;對質量的要求也顯著提高,多樣性和豐富度不可或缺。
以特斯拉爲例,馬斯克曾表示,特斯拉 FSD 測試裏程需要達到 60 億英裏,才能滿足全球監管機構的要求,這也是自動駕駛系統實現質變的一個重要節點。
據《馬斯克傳》中描述,神經網絡至少得進過 100 萬個視頻片段的訓練才能達到良好的工作狀态,而特斯拉到 2023 年初已經分析了從特斯拉客戶車輛上收集的 1000 萬幀視頻畫面,這其中,特斯拉還會挑選出人類優質司機所采取的行爲來給模型進行訓練。
2024 年 5 月,在解決了算力瓶頸之後,馬斯克表示更大的難點在于對長尾數據的收集。目前,特斯拉通過不斷擴大 FSD 功能覆蓋更大規模的用戶數量。2024 年第一季度,特斯拉 FSD 真實路況總裏程已達 12.5 億英裏(約 20 億公裏),這一數字遠超其他公司總和。特斯拉方面預計,按照目前的速度,FSD 累計行駛裏程有望在一年之内達到 60 億英裏總量。
由此可以看出,要想達到特斯拉的自動駕駛水準,海量、多樣化、高質量的數據是首要前提。
" 數據閉環 " 關鍵點
如何獲取大規模數據,獲取之後如何有效回傳、标注以及訓練,并最終 OTA 反饋到車端,是數據閉環的核心任務,也是大多數車企迫切想要擁有的能力。
數據閉環并非新概念,互聯網時代早期即有廣泛應用。一個比較典型的例子即是各類軟件、App 的 " 用戶體驗改進計劃 "。
用戶在初次打開一款軟件時,往往會彈出選項 " 是否加入用戶體驗改進計劃 "。點擊确定後,軟件就會收集用戶的使用信息。在出現崩潰、Bug 等場景下,軟件還會彈出信息,詢問 " 是否允許上傳本次崩潰信息以幫助改進 ",比如 Windows 出現的各種錯誤報告。
點擊提交後,軟件開發商的工程師們會分析錯誤報告,以找出出現崩潰、Bug 的原因,進而修改代碼并在下次更新後予以解決。
用戶在使用過程中遇到的所有問題均可以通過此種方式解決,周而複始,不斷優化軟件性能與使用體驗,這就是一種傳統的數據閉環。
自動駕駛系統的研發與優化,與傳統軟件開發存在很多不同。
傳統軟件更多是在代碼端解決各類問題,但自動駕駛系統除代碼以外,還有更爲關鍵的 AI 模型。代碼端的問題可以通過傳統的數據閉環方式予以解決,但模型端的調整則需要重新訓練或優化 AI 算法模型。
因此,自動駕駛數據閉環需要在傳統數據閉環方式上,引入一些新東西,比如數據标注、模型訓練、算法調試等。
在數據采集環節,收集足夠多的交通數據并非易事。采集數據分爲兩種,一種是靠研發采集車。小鵬、華爲在起步階段,均是靠這種方式獲取數據。另一種是通過量産車獲取數據,這是在數據規模上來後的主流方式。
早年自動駕駛企業大多依賴采集車采集數據,這種數據是不真實的、分布有偏的、低質量的,隻能做個 Demo,難以進行大規模端到端訓練。最近幾年,随着量産車的規模化落地,業界很多公司都開始轉向采用量産車通過影子模式采集數據,但這種模式依然面臨艱巨的挑戰。
這裏面包含采集策略的問題,即如何平衡數據的長尾問題(有效性)和數據的規模問題(成本)。如果采集策略比較寬松,往往采集的數據大部分是無價值數據;如果采集策略過于嚴格,又會丢失大量有價值的數據。
其次是數據的質量問題,如何定義數據質量是個艱巨的産品問題,如何精準地挑選出覆蓋足夠多極端情況的高質量數據又是一個複雜的技術問題。
之後是數據分布問題,如何從海量的數據片段中提取有效的特征、如何統計數據的分布、應該考慮哪些維度,都需要大量的工作。
在數據回傳環節,在數據量特别大的時候,數據回傳的成本會非常高。
單車每日回傳的數據量大概爲百兆級。在研發階段,車輛總數可能隻有幾十輛或者幾百輛,但是到了量産階段,車輛數目的量級可以達到上萬、幾十萬甚至更多。那麽,量産階段,整個車隊日産生的數據量就是很大的數字。某造車新勢力每個月僅用來做數據回傳的流量費就高達 " 大幾千萬 "。
另一方面,急劇增加的數據量還給存儲空間以及數據處理的速度都帶來了挑戰。
量産之後,數據處理的延遲需要和研發階段保持在同一個量級。但如果底層的基礎設施跟不上,數據處理的延遲就會随着數據量的增長而相應地增加,這樣會極大地拖慢研發流程的進度。對于系統叠代來講,這種效率的降低是不可接受的。
在數據标注環節,雖然大模型的應用可以讓高達 80% 的數據标注可以通過自動化的方式來完成,但還有至少 20% 涉及複雜場景、多目标、語義複雜的數據需要由人工來完成 " 精标 "。
以往需要标注的數據主要是前視攝像頭數據,2D 标注框 +3D 位置就已經是标注的全部内容了;如今在 BEV+Transformer 方案下,所有相關的攝像頭看到的所有障礙物、車道線、車輛的運動狀态都需要對應的标注,并且還要統一在同一坐标系下,還有大量的語義信息也需要标注。
多數公司在數據标注環節都會依靠 " 人海戰術 ",依靠人工一個個地對采集回來的數據做場景分類,工作量遠超想象。一般的檢測框,一分鍾的内容,标注需要一小時左右;點雲分割,一分鍾的内容,标注需要幾個小時;但對更複雜的任務做 4D 标注,可能一分鍾的任務需要花超過一天時間才能完成。
後面如果要做端到端的算法訓練,在給這一幀的内容打标簽時,還得考慮該标簽如何跟其他幀的内容做關聯。
總體趨勢是,自動駕駛行業對标注的要求越來越高了,這意味着,投入到一分鍾視頻上的标注成本也随之水漲船高。如果标注的結果不準确、不完整,那基于這些數據訓練出來的模型的性能就會受到影響。
此外,在數據收集和處理的過程中,隐私保護是一個不容忽視的問題。自動駕駛車輛在運行過程中,可能會捕捉到行人的面貌、車牌号碼等敏感信息。如何保護這些個人隐私,避免數據洩露和濫用,是每個自動駕駛企業都必須嚴肅對待的問題。
對大部分自動駕駛企業,還會面臨嚴重的數據泛化問題,因爲不同的車型傳感器配置差異巨大,采集的數據往往難以複用,而國内車企普遍車型衆多,最後很可能是采了一堆數據放在那沒法使用,看起來是數據資産,其實都是存儲成本。
" 華山一條路 " 的技術新路徑
在數據閉環體系中,仿真技術無疑是非常關鍵的一環。仿真的起點是數據,而數據又分爲真實數據與合成數據。随着真實數據 " 規模小、質量低、使用難度大 " 等問題日漸暴露,合成數據越來越受重視。
在國内,雖然各家主機廠已經不缺真實數據,但這些數據的利用率究竟有多高,仍然存在很大疑問。同時,如果用真實數據用來做仿真,有個很嚴重的痛點——複用性差。
比如,在做路采的時候,車輛的芯片平台、傳感器架構及制動系統是怎樣的,在仿真系統裏做測試時,車輛的這些硬件配置也必須跟路采時所用的車輛配置一緻。一旦傳感器的位置或者型号有變更,這一組數據的價值就降低,甚至會作廢。
事實上,真實數據的最主要問題并不是 " 太少 ",而是質量低,使用難度大、複用性差,而這恰合也就是合成數據的用武之地。
合成數據(Synthetic Data)就是通過計算機技術生成的數據,而不是由真實事件産生的數據。但合成數據又具備 " 可用性 ",能夠在數學上或統計學上反映原始數據的屬性,因此也可以用來訓練、測試并驗證模型。OpenAI 的 GPT-4,就采用了大量前一代模型 GPT-3.5 生産的數據來進行訓練。
Gartner 預測,到 2024 年用于訓練 Al 的數據中有 60% 将是合成數據,到 2030 年 AI 模型使用的絕大部分數據将由人工智能合成。
合成數據最早于 1993 年由統計學家唐納德 · B · 魯賓(Donald B. Rubin)提出,目前被廣泛引用,并在金融保險、醫療制藥、汽車制造、零售、自動駕駛等領域都有或深或淺的應用。
合成數據的産生原理,很大程度上在于模拟真實數據的分布特征和統計特性,再通過生成模型創建新的數據集,用來輔助真實訓練數據樣本不足或使用受限情況下(如數據敏感或隐私保護)的模型訓練、測試和開發。
廣義上,因爲合成數據保留了和真實世界數據相同的結構或分布,卻不包含原始信息,所以主要被用來代替原始數據用于模型訓練和下遊任務。
不過在實際應用中,出于數據可用性或真實場景數據對強化模型泛化能力的考慮,也有人基于原始數據樣本,通過部分合成的方式(比如利用數據填補的方法替換原本的敏感和關鍵字段,進行局部數據的合成),生成相應的合成數據。所以,在有些分類中,合成數據又包含全部合成、部分合成、混用多種形态。
目前,合成數據在模型訓練和數據集增強等場景,尤其在對齊階段深度的模型訓練中發揮着重要作用。
随着合成數據越發受到重視,技術人員也在持續創新數據合成的方法。從實際使用看,目前主要通過以下方式進行合成數據。
随機采樣生成。根據現實世界數據中觀察到的統計特性(如均值、方差、相關性等),随機生成數據。這種合成方法比較基礎直接,适合簡單的數據集生成,但面對高維複雜的數據,則存在一定的局限性。
基于特定領域規則生成。基于數據集預定義的規則和約束,手動或半自動生成合成數據。這種方式生成的數據,能保持與現實世界複雜場景的一緻性,使得生成的合成數據具有一定可解釋性,但這種方法在具有明顯規律或規則時才較爲有效。
利用深度學習方法生成。主要表現在利用生成對抗網絡(GAN)、變分自動編碼器(VAE)等生成合成數據。比如視頻生成模型 Sora 就采用了生成對抗網絡(GAN)來生成合成數據。在這過程中,生成器負責基于原始數據合成圖像,鑒别器負責将原始圖像和合成圖像分離,當對抗機制達到平衡,就能生成與真實世界圖像特征非常相似但又有所區别的合成圖像數據。
變分自動編碼器(VAE)則是利用無監督算法,通過編碼器(數據降維)和解碼器(數據重構)的協作,在原始數據基礎上生成新的數據。兩者都是合成多模态數據的有效方式。
利用合成數據工具生成。比如利用 Python、Scikit-learn、Datagen、Mostly AI 等數據合成工具軟件、機器學習庫,針對性生成相應的合成數據。目前也可以直接利用 GPT 等大語言模型,通過提示詞引導,進行數據增強和虛拟數據的合成。
除此之外,通過對現有數據樣本進行變換、擴充、匿名等生成更多的訓練數據樣本,即采用增強數據、匿名數據等方式合成數據也比較常見。隻是這種更多屬于部分合成數據,真實數據特性保留度高,多樣性、豐富性方面也會有一定影響。
合成數據在自動駕駛領域的一大應用是對于極端情況的模拟。大量的極端情況在真正發生前沒有人能預知,屬于 " 預期功能安全 " 第三象限裏面的 "Unknown,Unsafe" 一類,所以無法在真實道路上進行模拟。這類情況,無法通過基于人工規則的合成數據(WorldSim)來生成,也沒法通過對真實世界做 3D 重建的技術(NeRF)來生成,但有望通過基于 AIGC 的合成數據來獲取。
有些極端情況盡管人們能想象得到 " 大概會怎樣 ",但畢竟太危險,所以也不适合在真實道路上做模拟。這種極端情況無法通過 NeRF 技術來生成,但可以通過合成數據來生成。有些極端情況,算不上有多麽不安全,但也會影響到交通安全,比如雨、霧、雪和極端光線等極端天氣跟某種極端交通流的組合,這些也需要通過合成數據技術來生成。還有許多極端情況,在真實數據中的密度太低,挖掘成本太高,這個時候選擇合成數據便是最佳策略。
有了合成數據,主機廠或自動駕駛公司便可在幾小時内模拟數百萬個極端情況,這些模拟可能涵蓋不同照明條件、目标位置和惡劣環境下的示例,或者可以插入随機噪聲來模拟髒污的攝像頭、霧水和其他視覺障礙物。
此外,真實數據由于高度受制于采集場景的限制,所以極端情況在樣本的分布上也很難有效滿足算法的需求。而合成數據,可以有針對性地生成分布狀況更滿足訓練需求的極端情況,這更有助于提升算法的性能。
如今,數據對自動駕駛産業的驅動力已經成爲每一位玩家繞不開的關鍵。完備的閉環模型需要大規模、高質量、多場景的數據,高算力、高效率、相對低成本的算法模型,趨向自動化的數據标注與處理,高速率、低成本的傳輸速率與存儲模式,再加上安全合規的保駕護航,在數據的喂養下飛輪不斷循環向前,實現自動駕駛的持續進化。
數據閉環的每一步推進都是成本和效率的博弈,每一次博弈都是科技理性與價值理性的融合,每一場融合也将必然需要上下遊企業數據共享、技術開源、生态共建。而數據閉環也是實現城市 NOA 和更高級别智駕的 " 華山一條路 ",在這條路上,可以慢、可以錯,但唯獨不能不上山,否則就會被遺忘在山腳下。