GPT能爲自動駕駛帶來什麽？毫末給出了答案

" 在 AI 技術生态上，生成式大模型已成爲自動駕駛系統進化的關鍵，基于 Transformer 大模型訓練的感知、認知算法，将逐步在車端進行落地部署。"

在最新的毫末 AI DAY 上，毫末智行董事長張凱給出了這一判斷，并基于這一判斷發布業内首個自動駕駛生成式大模型 DriveGPT，中文名 " 雪湖 · 海若 "。

自去年年末以來， GPT 的熱度一直高漲不下，尤其是 ChatGPT 的大火更是引發全行業關注。此前，GPT 多應用于文本生成、代碼生成或是搜索領域，但由于缺乏數據支撐，GPT 在自動駕駛行業這一垂類的應用并不高。

截至目前，業内也僅有毫末一家率先将 GPT 應用到自動駕駛領域，即 DriveGPT 雪湖 · 海若。

DriveGPT 能爲智能駕駛做什麽？

GPT 的全稱是生成式預訓練 Transformer 模型，本質上是在求解下一個詞出現的概率。即根據輸入的前序文本，模型會輸出可能出現的下一個字的幾率分布，再從中取樣出幾率較高的字。如此循環往複，直到完整地寫完下文。

據官方介紹，DriveGPT 雪湖 · 海若的底層模型采用 GPT（Generative Pre-trained Transformer）生成式預訓練大模型，與 ChatGPT 使用自然語言進行輸入與輸出不同，DriveGPT 輸入是感知融合後的文本序列，輸出是自動駕駛場景文本序列，即将自動駕駛場景 Token 化，形成 "Drive Language"。

Drive Language 基于毫末的 CSS 場景庫理論，将駕駛空間進行離散化處理，每一個 Token 都表征場景的一小部分，相當于許多個可能在未來出現的平行宇宙，最終完成自車的決策規控、障礙物預測以及決策邏輯鏈的輸出等任務。截至目前，毫末從真實駕駛場景庫中提取的 token 序列，規模達到 50 萬個。

有了 Drive Language，毫末就可以用人類駕駛的數據對模型進行預訓練。

首先，在預訓練階段通過引入量産駕駛數據，訓練初始模型，再通過引入駕駛接管 Clips 數據完成反饋模型（Reward Model）的訓練，然後再通過強化學習的方式，使用反饋模型去不斷優化叠代初始模型，形成對自動駕駛認知決策模型的持續優化。

同時，DriveGPT 雪湖 · 海若會根據輸入端的提示語以及毫末 CSS 自動駕駛場景庫的決策樣本去訓練模型，讓模型學習推理關系，從而将完整駕駛策略拆分爲自動駕駛場景的動态識别過程，完成可理解、可解釋的推理邏輯鏈生成。

毫末智行 CEO 顧維灏表示，毫末 DriveGPT 雪湖 · 海若通過引入駕駛數據建立 RLHF（人類反饋強化學習）技術，對自動駕駛認知決策模型進行持續優化。據毫末方面的說法，在 RLHF 的加持下，Hard Case 通過率提升了 48%。

目前，毫末 DriveGPT 雪湖 · 海若實現了模型架構與參數規模的升級，參數規模達 1200 億，預訓練階段引入 4000 萬公裏量産車駕駛數據，RLHF 階段引入 5 萬段人工精選的困難場景接管 Clips。

毫末方面表示，DriveGPT 雪湖 · 海若現階段主要用于解決自動駕駛的認知決策問題。" 在感知到了周圍的世界之後，怎麽樣把車開得更安全，把車開得更順滑，怎麽樣跟周圍的交通參與者互相博弈。" 顧維灏說道。

毫末判斷，DriveGPT 雪湖 · 海若還将在城市 NOH、智能陪練、駕駛捷徑推薦、脫困場景中得到應用，最終目标是要實現端到端自動駕駛

毫末在 AI DAY 上宣布，DriveGPT 雪湖 · 海若将在即将量産上市的新摩卡 DHT-PHEV 首發。

毫末基于 GPT 技術的探索，毫末衍生出服務于業界的能力和新的商業模式，即向業界開放 DriveGPT 的能力，4 月 11 日開放單幀自動标注服務，可降低标注成本，之後還将陸續開放駕駛行爲驗證、困難場景脫困等功能。

DriveGPT 背後的支持

事實上，DriveGPT 雪湖 · 海若的訓練和落地，離不開算力的支持。

今年 1 月，毫末和火山引擎共同發布了其自建智算中心 " 毫末雪湖 · 綠洲 MANA OASIS"。毫末表示，OASIS 的算力高達 67 億億次 / 秒，存儲帶寬 2T / 秒，通信帶寬達到 800G / 秒。

不過，隻有算力還不夠，還需要訓練和推理框架的支持，由此毫末進行了三方面升級——

一是訓練穩定性優化。毫末在大模型訓練框架的基礎上，與火山引擎共同建立了全套訓練保障框架，可以通過集群調度器實時獲取服務器異常，将異常節點從訓練 Task group 中删除，再結合 CheckPoint 功能，利用 VePFS 高性能存儲和 RDMA 網絡高效分發，以保障 DriveGPT 雪湖 · 海若大模型訓練的穩定性。

二是彈性調度資源的升級。毫末構建了一個大模型持續學習系統，數據以動态數據流的形式結合增量學習，持續不斷地将量産回傳和篩選的存量數據，傳入認知和感知 Pretrain 大模型。

三是吞吐效率的升級。在 Transformer 的大矩陣計算上，毫末通過對内外循環的數據拆分，盡量保持數據在 SRAM 中提升計算的效率；在傳統的訓練框架中，通過引入火山引擎提供的 Logo 核心算子庫實現融合，端到端吞吐提升 84%。

另外，毫末表示，自動駕駛數據智能體系 MANA 架構已迎來全線升級。截至 2023 年 4 月， MANA 學習時長超 56 萬小時，相當于人類司機 6.8 萬年。

在 MANA 發布叠代一年後，在本次 AI DAY 也迎來升級，具體包括：

首先，MANA 感知和認知相關大模型能力統一整合到 DriveGPT 雪湖 · 海若中；

其次，MANA 計算基礎服務針對大模型訓練在參數規模、穩定性和效率方面做了專項優化，并集成到 OASIS 中；

第三，增加了使用 NeRF 技術的數據合成服務，降低 Corner Case 數據的獲取成本；

最後，針對多種芯片和多種車型的快速交付難題優化了異構部署工具和車型适配工具。

在視覺感知能力上，毫末對視覺自監督大模型做了一次架構升級，将預測環境的三維結構，速度場和紋理分布融合到一個訓練目标裏面，強迫模型練好内功，使其能從容應對各種具體任務。目前毫末視覺自監督大模型的數據集超過 400 萬 Clips，感知性能提升 20%。

顧維灏舉例稱，在泊車場景下，毫末将魚眼相機也引入到視覺 BEV 的感知框架當中，魚眼圖像通過 2D backbone 提取出視覺特征，經過空間轉換映射至 BEV 空間，并在該空間下對于障礙物的輪廓邊界進行識别和測量，目前可做到在 15 米範圍内達測量精度 30cm，2 米内精度高于 10cm。

除了用自監督大模型練内功，毫末還公開了在純視覺三維重建方面的一些進展。

毫末對 NeRF 做了升級，将視覺感知結果轉化爲可用于 BEV 模型訓練的帶 3D 标注的真值數據，目前可以做到重建誤差小于 10cm。

單趟重建有時會受到遮擋的影響，不能完整地還原三維空間，因此毫末嘗試了多趟重建的方式——即将同一地點不同車輛在不同時間經過的數據合并做多趟重建，由此提升場景還原度，重建效率可提升 5 倍。

重建之後，MANA 可以編輯場景合成難以收集的 Corner Case。毫末表示，近期訓練了一個可以在靜态場景做虛拟動态物體編輯的模型，可以控制虛拟物體在場景中按照設定的軌迹運動，由此合成各種 hardcase，例如近距離回車，行人、電動車交互行爲等。

2023 年将是智駕産品大考之年

"2023 年智駕産品進入全線爆發期。" 毫末智行董事長張凱在活動上表示。

張凱判斷，城市導航輔助駕駛産将在 2023 年将圍繞量産上車發力，主要玩家的城市導航輔助駕駛産品進入到真實用戶覆蓋和多城市落地的比拼。

其次，行泊一體和末端物流自動配送産業商業化将成爲自動駕駛公司深耕的重點。在乘用車領域，搭載行泊一體功能的智駕産品将迎來前裝量産潮；在末端物流自動配送領域，末端物流自動配送車在商超、快遞等場景迎來爆發，2023 年将在這些場景實現可持續商業化閉環。

在 AI DAY 上，毫末表示其城市 NOH 已在北京、保定、上海等城市開啓泛化測試，即将量産上車。張凱表示，到 2024 年，毫末城市 NOH 将有序落地 100 城。

一年之内，從三座城市擴張至百城，毫末給出的目标可以說十分激進。

截至目前，毫末三代乘用車産品搭載車型近 20 款，毫末輔助駕駛用戶行駛裏程突破 4000 萬公裏，HPilot2.0 日均裏程使用率 12.6%。

毫末智行透露，目前已與 3 家主機廠（包括長城）簽署定點合同，相關項目正在交付中。

結合毫末往屆 AI DAY 的動态來看，從發布中國首個數據智能體系 MANA，到建設智算中心雪湖 · 綠洲，再在其基礎上訓練出參數規模達 1200 億作爲 DriveGPT 雪湖 · 海若模型，毫末的閉環思維始終貫徹其技術始末，并逐漸形成數據驅動的閉環。

正如毫末所言，2023 年将是智能駕駛沖刺之年、大考之年。這對毫末來說，這也是長久技術布局走向落地應用的關鍵時期；畢竟，毫末要在 2025 年實現城市 NOH 落地 100 城，這并不是一個簡單的事情。

（本文首發钛媒體 App，作者 | 肖漫，編輯 | 張敏）

更多精彩内容，關注钛媒體微信号（ID：taimeiti），或者下載钛媒體 App