圖片來源 @視覺中國
文|自象限,作者|羅輯,編輯|程心
" 自動駕駛的前提是安全與嚴謹,大模型給出 ' 差不多 ' 的結果是不行的。"
在今年 4 月初,大模型剛剛問世時,一位自動駕駛領域的資深投資人向「自象限」表達了,他對通用大模型應用在自動駕駛領域的擔憂。
不被看好的原因有很多,比如大模型 " 胡說八道 " 的問題,導緻大家認爲它達不到自動駕駛的安全等級要求;比如大家認爲大模型解決的是共性推演的問題,但自動駕駛解決的 0.5% 的 corner case;再比如大模型要在車端落地,需要與結合前融合算法,對前端算力的要求會很高。
總而言之,通用大模型的不确定性和自動駕駛的嚴謹性像一個硬币的兩面,落地上也面臨着幾座短期内難以翻越的大山。"這會是整個體系建設的問題,不是角度算法可以改變的。" 這位投資人如此總結道。
盡管不被看好,但 6 個月過後,大模型還是以一種蠻橫的方式沖進了自動駕駛行業。
打響第一槍的,仍然是特斯拉。今年 8 月,特斯拉端到端 AI 自動駕駛系統 FSD Beta V12 首次公開亮相,完全依靠車載攝像頭和神經網絡來識别道路和交通情況,并做出相應的決策。國内,自動駕駛和大模型公司都開始緊鑼密鼓的布局,9 月,華爲盤古大模型 3.0 推出了自動駕駛行業大模型;10 月,在毫末第九屆 AI Day 中,也講解了其身處自動駕駛領域對大模型的一系列探索。
從結果來看,目前大模型對自動駕駛的改變分爲兩個方向:一是大模型作爲工具,輔助自動駕駛算法的訓練,優化過程;二是大模型作爲決策模型,直接駕駛車輛,改變結果。
透過國内外的探索,這條看似相悖的技術路徑似乎開始一步步清晰,那麽大模型究竟能給自動駕駛帶來了什麽?核心的技術難題又該如何解決?
大模型,更換自動駕駛訓練引擎
首先,大模型正在重塑自動駕駛的訓練過程。
從大模型被讨論的第一天開始,從文本到圖片生成,大家就深刻意識到大模型在提高工作效率上的巨大潛力。這一點,在自動駕駛訓練上也不例外。
訓練自動駕駛算法,是一個漫長而龐大的工程,從數據采集、傳輸、管理;到數據清洗、标注、準備,到最後投入到訓練自動駕駛算法的熔爐當中,中間會涉及到數十個環節。
而如今困擾自動駕駛發展的核心問題也來自于此,一個是随着絕大部分常規問題被解決,有效數據的收集難度越來越大;其次則是随着數據規模的增加,數據處理的成本也越來越高。
▲圖爲自動駕駛訓練過程
首先是數據收集的問題。當自動駕駛走入最後 0.5% 的 corner case 階段,場景數據在現實世界就變得可遇不可求。
爲了應對這些問題,特斯拉、Waymo、Cruise 等企業都在不同程度使用合成數據來模拟真實世界來訓練自動駕駛。
但這種方式也存在一些弊端,比如合成數據雖然能輕松生成大量數據,提高自動駕駛訓練數據的多樣性。但作爲人工生成的數據,合成數據并不能完全模拟真實世界的複雜和變化。過度使用合成數據,會導緻自動駕駛出現 " 紙上談兵 " 的現象,即在訓練時表現很好,但一上路就不行,這種情況被稱爲過度拟合。
而針對這樣的問題,大模型提供了一種新的解決方案。
比如使用大模型進行數據生成的技術——遷移生成。它可以基于一個真實的場景,快速生成不同時間、不同環境的情況。比如拍攝一張街道春天的照片,大模型可以快速生成這條街道雨天、刮風、下雪等不同條件、不同季節的情況。
這麽做的好處在于 " 可控 ",自動駕駛訓練可以根據一些特定的需要生成一些特定的場景,而更重要的是,這些場景中包含一些真實數據,在增加訓練場景豐富性的同時,又可以避免過度拟合的情況。
目前已經有廠商在逐步嘗試,毫末 CEO 顧維灏在 AI Day 中便提到了該技術,清華智能産業研究院(AIR) 提出的自動駕駛模型也有類似的設置,在他們的設定中,模型會提出怎樣獲取不同的數據,包括真實世界數據和仿真數據。然後這些數據要經過受控管道進行清理,再經過感知和決策兩大模型,最終爲車輛提供決策。
其次是數據标注,數據标注并不是一次性完成的,同一張照片,不同時期,依據需要解決問題的不同,需要标注的東西也不太一樣。
比如一開始需要解決的是車輛識别的問題,那麽照片中重點标注的是不同的車輛,後來要解決紅綠燈識别的問題,重點标注的可能就是紅綠燈。總之,數據标注是一個反複,且逐步細化的過程,因此難度和成本也在持續增加。
在國外,特斯拉最早啓動數據自動标注,這讓原來需要幾個月時間的工作可以在幾周内完成。2022 年 6 月,得益于效率的提升,特斯拉裁掉了其位于加利福尼亞聖馬特奧辦事處的絕大部分數據标注員工。
特斯拉之後,國内自動駕駛企業也開始跟進,将自動标注使用到日常訓練中。作爲特斯拉的 " 中國學徒 ",顧維灏介紹了毫末使用大模型進行數據标注的案例。
其運用大語言模型和多模态的能力,通過将圖文和文圖交叉的特征做匹配的,然後再将其放到大語言模型中,針對形成于特征空間的搜索(query)特征。在這樣的基礎上,大模型就可以在不需要做太多準備的情況下,将之前沒有标注過的,想要标注的内容标注出來。
整體上,大模型的接入優化了自動駕駛的訓練過程。
如果将訓練自動駕駛算法比作是金字塔的修建,那麽大模型的加入,就如同将曾經依靠人力堆砌的石塊,改換成現代化的起重機,加快了自動駕駛的 " 搭建 " 進程。
大模型,讓自動駕駛 " 長出腦子 "
在自動駕駛訓練中,大模型就像全職助手一樣不斷提高算法訓練的效率。但這也僅僅隻是工程上的優化,大模型給自動駕駛帶來的,還有更深層次改變。
這個問題要回到自動駕駛是如何進行工作的。
在大模型出現之前,自動駕駛是任務驅動的。即程序員依據一些特定的場景,編寫一些解決方案的代碼,當車輛在行駛過程中感知到相應的情況,便按照之前設定好方式處理。
在這個基礎上,自動駕駛的發展就變成:發現一個問題,收集一些數據,然後訓練一個小模型來解決這個問題,然後再發現新的問題,如此循環。
但這種模式對于問題的解決具有一定的滞後性,即問題要先被發現,然後等一段時間才能被解決。其次是泛化問題,即在同一個問題在夏天解決了并不一定在冬天解決。也正是因爲如此,自動駕駛才有解決不完的 corner case。
這些問題,實際指向的其實是傳統自動駕駛算法 " 照本宣科 " 式的工作模式,并沒有真正認識世界、理解世界,即自動駕駛并沒有靈魂。
大模型的出現則爲這個問題的解決給出了方向,就像大模型讓虛拟人、讓語音助手都長出 " 腦子 " 一樣,大模型也在讓自動駕駛長出 " 腦子 "。
特斯拉的 " 端到端 " 技術又叫作 " 感知決策一體化 ",也就是将 " 感知 " 和 " 決策 " 融合到一個模型中,直接對車下達指令,控制車輛,這樣輸入傳感器信号後可以直接輸出車控信号,大大降低了級聯誤差的概率,也因此大大提升了系統性能的上限,整體潛力極大。
▲ 圖源馬斯克 Twitter
目前國内還未能做到真正的 " 端到端 ",比如毫末 DriveGPT 仍然分爲感知大模型和認知大模型兩部分。
感知大模型除了要根據車端輸入的信号做三維重建,還要加上時序特征形成一個四維空間。在此基礎上,毫末引入多模态大模型,多模态大模型已經做了許多文本和對齊的工作,這個時候再和 4D 語義空間做對齊,就可以把自動駕駛傳感器看到的這些東西全部語義化,這樣就形成了通用的,識别萬物的能力。
而有了這樣的能力之後,結合認知大模型就可以結合駕駛時的信息和行駛目标,比如直行、變道、左轉等信息,給出相應的駕駛決策和駕駛解釋,然後大模型将其轉化爲自動駕駛的語言,通過 Drive Prompt 和自動駕駛系統做交互。
本質上,大模型就像是自動駕駛的 " 領航員 " 和 " 翻譯官 ",它理解駕駛的目标和意圖,它識别和感知環境,然後做出決策并将其翻譯成自動駕駛的語言,向自動駕駛系統下達合适的指令。
當然,從人的角度來講,駕駛車輛的過程需要的除了識别萬物,還有對環境中所有物體運動方向的預判,這樣才能在面對複雜交通環境時提前做出反應。
大模型同樣對自動駕駛帶來了這方面的改進。
2022 年,特斯拉在年底的 AI Day 上就曾提出過一個名叫交互搜索(Interaction Search)的規劃模型,其主要由樹搜索,神經網絡軌迹規劃和軌迹打分三部分組成,可以有效預測道路交通參與主體的行爲軌迹。
從這可以看到,自動駕駛的決策已經從之前,依靠單一信息進行分布決策,變成了多種信息彙總之後的統一決策。
▲ 自動駕駛的決策路徑
即大模型的決策越來越像是一個整體。
目前生成未來世界這項技術可以根據當前的視頻、圖片,生成未來 2~5 秒的情況,其預測 2s 後準确率達到 85%,這可以讓 AI 對未來有一些預判。同時,預測未來的技術也可以用在自動駕駛訓練上,比如可以生成未來的圖片,然後基于真實圖片和生成的未來的圖片再進行自監督學習,以此來提升整個視覺大模型識别的判斷的能力。
它讓自動駕駛越來越成爲一個 " 整體 ",正如清華大學智能産業研究院院長張亞勤說的那樣,"AI 大模型帶來了從判别式 AI 到生成式 AI 的新技術範式變革,自動駕駛達到最後的安全、可靠階段一定是端到端方式實現。
自動駕駛的底層進化
成爲 " 整體 ",自動駕駛中關于這個的讨論其實并不是在大模型熱度起來之後才開始的。
2022 年,當關于自動駕駛的讨論還聚焦在芯片和電子電氣架構的時候,全球著名的汽車零部件供應商博世曾提出,汽車電子電氣架構将從分布式向域集中式和中央計算過渡。
早期的汽車電子電氣架構是以 ECU(Electronic Control Unit 電子控制單元)爲主,一輛汽車通常有 30 到 100 個 ECU 不等,分别控制汽車的引擎、變速器、制動等等功能。随着汽車智能化的進程,相關功能的 ECU 逐漸被整合成域控制器,目前智能汽車通常有動力域、底盤域、車身域、座艙域和自動駕駛域五個。
在這個基礎上,智能汽車的電氣架構還在向一個 " 整體 " 演變,最終将會形成由一個統一中央計算單元控制的形式。2016 年,特斯拉發布的 Model 3 實現了中央域控制架構的雛形,當時被行業認爲在電子電氣架構方面領先傳統車企 6 年以上。
從 " 散裝 " 到 " 整體 ",這是智能汽車硬件層面的變化,這種變化也推動着自動駕駛軟件層面向一個 " 整體 " 發展,而契機就是大模型。
關于自動駕駛與大模型,張亞勤提到," 自動駕駛不是一個模型,而是多個模型的組合。" 這其實正好對應智能汽車硬件域控制器的發展階段。
這也是華爲盤古大模型 3.0 的思路,華爲雲 EI 服務産品部部長尤鵬認爲,通過數智融合架構打破數據、AI 資源管理邊界,在一個平台即可完成開發、測試、交付上線工作,讓業務創新提效 2 倍,實現數據加速;借助盤古大模型在認知、感知、決策、優化等全領域的能力,車企可以快速基于盤古訓練出自己需要的模型,實現算法加速;同時,華爲還提供底層昇騰算力平台,解決自動駕駛對算力的高需求,做到千卡訓練數月不中斷,打通 " 全鏈路 ",實現算力加速。
" 全鏈路的模型化是 3.0 時代的一個重要的演進思路,最終演變成端到端的大模型。" 顧維灏說。
而一旦完成了全鏈路的打通,這樣的改變帶來的将是大範圍且高速叠代。正是因爲 " 端到端 " 技術,馬斯克曾放出豪言 " 将可能在今年年底實現完全的自動駕駛 "。這句話雖然不排除馬斯克吹牛的成分,但我們也可以從中看出 " 端到端 " 技術的巨大潛力。
總的而言,對于自動駕駛來說,大模型并不是一種決策方式,也不單單是指一種技術,而更應該是自動駕駛發展的一種最終形态。
當然,雖然大模型給自動駕駛的落地帶來了巨大的想象力,但實際的應用和落地過程仍然面臨許多問題。
比如最直接的問題就是如何将雲端大模型的能力應用到車端。
目前行業普遍應用的方式有三種:
第一種是将大模型蒸餾到小模型,應用到車端。這具體又分爲兩種路線,一種是通過大模型給數據打标簽,監督小模型學習;另一種是将大模型上的 Feature map 和小模型上的 Feature map 進行對齊,然後來完成小模型能力的提升。
從毫末公布的工作效率來看,一個模型的蒸餾需要好幾個月,但能夠幫助自動駕駛車端模型在個别任務上的感知指标提升 5%。
第二種是在雲端通過大模型構建一種能力,然後再通過減脂、蒸餾等方式将大模型的能力蒸餾到車端的小模型上,來完成車端小模型的進步。
第三種則是直接使用雲端大模型。畢竟雖然雲端傳輸會面臨信号、安全、延遲等問題的困擾,但也并不意味着所有決策都需要在車端完成。雲端大模型具有更強的泛化能力和解釋能力,對于任務實時性和網絡信号較好的地方,也存在可能讓車端的一些通信和雲端大模型進行交流,然後讓雲端大模型完成車端工作的情況。
除了從将大模型運用到車端之外,大模型指導的自動駕駛還有許多人類生活的常識需要學習。比如路沿的方向是不是能走,面臨多個路口的時候各個方向是不是一定按照車道線走,這些在實際交通實踐中約定俗成的東西大模型還無法掌握。
" 現在解決這些問題就需要加許多約束,而一旦加約束,這個系統就變得不聰明了。" 顧維灏提出了其中的邏輯悖論。
所以如何去解決這些問題,又如何發揮大模型的優勢成爲未來很長時間自動駕駛的考題,畢竟當前大模型對于自動駕駛的改變,也隻是第一聲槍響而已。