在近日舉行的第九屆 HAOMOAIDAY 上,毫末又帶來了一系列成果展示。
其中,重磅發布三款 " 極緻性價比 " 千元級無圖 NOH,全面滿足高中低價位智駕車型量産需求;
首個自動駕駛生成式大模型 DriveGPT 雪湖 · 海若公布最新成果:共計篩選出超過 100 億幀互聯網圖片數據集和 480 萬段包含人駕行爲的自動駕駛 4D Clips 數據;進一步升級引入多模态大模型,獲得識别萬物的能力;與 NeRF 技術進一步整合,渲染重建 4D 空間;借助 LLM(大語言模型),讓自動駕駛認知決策具備了世界知識。
産品層面,搭載毫末城市 NOH 功能的魏牌藍山将在 2024 年第一季度正式量産上市;小魔駝即将在 2023 年第四季度在商超履約配送場景實現盈利。
重磅發布三款千元級 HPilot 産品,以 " 極緻性價比 " 搶占智駕市場
"2023 年我國高階智能輔助駕駛市場迎來大爆發。" 活動現場,張凱以《BETTER AI,BETTER HAOMO》爲主題,分享了對 2023 年智駕市場競争局勢的判斷,以及毫末四大戰役的最新進展。
張凱介紹,目前乘用車銷量和智能化指數都在穩步提升,同時智能駕駛滲透率與價格卻呈反向增長,乘用車市場 L2 及以上智能駕駛滲透率達 42.4%,2025 年将達 70%,并普及到 10-20 萬的主銷車型上;城市 NOA 迎來量産上車潮,目前占 L2 及以上輔助駕駛份額的 17%,2025 年将達 70%;行泊分體的硬件設計、一體機逐步退出市場,更具性價比的行泊一體的域控方案将成爲主流。
爲了迎戰智駕市場的變化,現場,毫末重磅發布了 HP170、HP370、HP570 三款 " 極緻性價比 " 智能輔助駕駛産品,預計将在 2023 年和 2024 年先後上車。
(重磅發布三款千元級 HPilot 産品)
張凱表示:" 毫末全新發布的第二代 HPilot 乘用車輔助駕駛三款産品,價格打下來的同時性能都打了上去,讓中階智駕便宜更好用,讓高階智駕好用更便宜。" 這也是 2023 年,毫末給中國如此 " 卷 " 的智駕市場交出的答卷。
毫末 HP170 是 3000 元級 " 極緻性價比 " 的高速無圖 NOH,可以實現行泊一體智駕。硬件配置上,算力 5TOPS,傳感器方案标配 1 個前視相機、4 個魚眼相機、2 個後角雷達、12 個超聲波雷達,靈活選裝 1 個前視雷達和 2 個前角雷達。場景上,可實現高速、城市快速路上的無圖 NOH,短距離記憶泊車等功能,并獲 E-NCAP 5 星 AEB 的高安全标準認證。
毫末 HP370 是 5000 元級 " 極緻性價比 " 的城市記憶行車與記憶泊車,可以實現行泊一體智駕。硬件配置上,算力 32TOPS,傳感器方案标配 2 個前視相機、2 個側視相機、1 個後視相機、4 個魚眼相機、1 個前雷達、2 個後角雷達、12 個超聲波雷達,靈活選裝 2 個前角雷達。場景上,可實現高速、城快,以及城市内的記憶行車,免教學記憶泊車、智能繞障等功能。張凱表示:" 毫末的記憶行車可看作毫末城市 NOH 的最小集,是城市 NOH 的強有力補充。"
毫末 HP570 是 8000 元級 " 極緻性價比 " 的城市全場景無圖 NOH 産品,未來将在 100+ 城落地。硬件配置上,算力可選 72TOPS 和 100TOPS 兩款芯片,傳感器方案标配 2 個前視相機、4 個側視相機、1 個後視相機、4 個魚眼相機、1 個前雷達、12 個超聲波雷達,還支持選配 1 顆激光雷達。場景上,可實現城市無圖 NOH、全場景輔助泊車、全場景智能繞障、跨層免教學記憶泊車等功能。張凱強調:"HP570 平台的曆史使命是打造行業内最具性價比的高階城市智駕産品。"
發布新産品的同時,張凱介紹了毫末 2023 年四大戰役的最新成果。首先是 " 智能駕駛裝機量王者之戰 ",在中國的自動駕駛公司中,毫末穩居中國量産自動駕駛第一名,輔助駕駛産品 HPilot 整體已搭載至超過 20 款車型,用戶輔助駕駛行駛裏程突破 8700 萬公裏。其中,最新搭載毫末 HPilot 的車型爲山海炮 HEV 版、新摩卡 Hi-4S 等。
其次是 "MANA 大模型巅峰之戰 ",DriveGPT 發布 200 天左右的時間裏,累積 480 萬段 Clips 高質量測試。目前已有生态夥伴 17 家,助力生态夥伴提效 90%。2023 年 DriveGPT 成功入選 " 北京市通用人工智能産業創新夥伴計劃 " 成爲首批模型夥伴觀察員及入選北京市首批人工智能 10 個行業大模型應用案例。此外,DriveGPT 還助力毫末榮獲 2023 中國 AI 基礎大模型創新企業的稱号。
第三是 " 城市 NOH 百城大戰 ", 具備城市 NOH 導航輔助駕駛功能的毫末 HP550(原 HPilot3.0),将搭載魏牌藍山在 2024 年第一季度正式量産上市。
最後是 " 末端物流自動配送商業之戰 ",末端物流自動配送車小魔駝 3.0,售價 89999 元,是全球首款 9 萬元内中型末端物流自動配送車,可以滿足在物流、商超、零售等 9 大場景的需求,小魔駝 3.0 産品推出在中國無人車規模化商用的行業進程中具有裏程碑式的意義。目前,小魔駝已配送超過 22 萬單。小魔駝即将在 2023 年第四季度在商超履約配送場景實現盈利。從商業意義上,毫末具備了成爲全球範圍内首家擁有規模化盈利 L4 業務公司的能力。
演講中張凱還介紹毫末總部已落戶北京市順義區,毫末将充分發揮在自動駕駛領域的技術和産業優勢,助力順義打造中國新能源智能汽車産業高地。
DriveGPT 雪湖 · 海若 200 天蝶變:通用感知實現 " 萬物識别 "、通用認知具備世界知識
曆屆 HAOMO AI DAY 的核心主題都是聚焦最硬核的自動駕駛 AI 技術。此次,顧維灏帶來了主題爲《自動駕駛 3.0 時代:大模型将重塑汽車智能化的技術路線》的演講,分享了毫末對于自動駕駛 3.0 時代 AI 開發模式的思考以及毫末 DriveGPT 大模型的最新進展和實踐。
顧維灏認爲,自動駕駛 3.0 時代與 2.0 時代相比,其開發模式和技術框架都将發生颠覆性的變革。在自動駕駛 2.0 時代,以小數據、小模型爲特征,以 Case 任務驅動爲開發模式。而自動駕駛 3.0 時代,以大數據、大模型爲特征,以數據驅動爲開發模式。
(毫末提出的自動駕駛 3.0 時代的技術架構演進趨勢)
相比 2.0 時代主要采用傳統模塊化框架,3.0 時代的技術框架會發生颠覆性變化。首先,自動駕駛會在雲端實現感知大模型和認知大模型的能力突破,并将車端各類小模型逐步統一爲感知模型和認知模型,同時将控制模塊也 AI 模型化。随後,車端智駕系統的演進路線也是一方面會逐步全鏈路模型化,另一方面是逐步大模型化,即小模型逐漸統一到大模型内。然後,雲端大模型也可以通過剪枝、蒸餾等方式逐步提升車端的感知能力,甚至在通訊環境比較好的地方,大模型甚至可以通過車雲協同的方式實現遠程控車。最後,在未來車端、雲端都是端到端的自動駕駛大模型。
顧維灏還詳細介紹了毫末 DriveGPT 大模型在推出 200 天後的整體進展。首先是 DriveGPT 訓練數據規模提升。截止 2023 年 10 月 DriveGPT 雪湖 · 海若共計篩選出超過 100 億幀互聯網圖片數據集和 480 萬段包含人駕行爲的自動駕駛 4D Clips 數據。其次是通用感知能力提升,DriveGPT 通過引入多模态大模型,實現文、圖、視頻多模态信息的整合,獲得識别萬物的能力;同時,通過與 NeRF 技術整合,DriveGPT 實現更強的 4D 空間重建能力,獲得對三維空間和時序的全面建模能力;最後是通用認知能力提升,借助大語言模型,DriveGPT 将世界知識引入到駕駛策略中。
顧維灏認爲,未來的自動駕駛系統一定是跟人類駕駛員一樣,不但具備對三維空間的精确感知測量能力,而且能夠像人類一樣理解萬物之間的聯系、事件發生的邏輯和背後的常識,并且能基于這些人類社會的經驗來做出更好的駕駛策略,真正實現完全無人駕駛。
毫末 DriveGPT 是如何具備識别萬物的通用感知能力,以及擁有世界知識的通用認知能力?顧維灏也給出了詳盡解釋。
在感知階段,DriveGPT 首先通過構建視覺感知大模型來實現對真實物理世界的學習,将真實世界建模到三維空間,再加上時序形成 4D 向量空間;然後,在構建對真實物理世界的 4D 感知基礎上,毫末進一步引入開源的圖文多模态大模型,構建更爲通用的語義感知大模型,實現文、圖、視頻多模态信息的整合,從而完成 4D 向量空間到語義空間的對齊,實現跟人類一樣的 " 識别萬物 " 的能力。
毫末通用感知能力的進化升級包含兩個方面。首先是視覺大模型的 CV Backbone 的持續進化,當前基于大規模數據的自監督學習訓練範式,采用 Transformer 大模型架構,實現視頻生成的方式來進行訓練,構建包含三維的幾何結構、圖片紋理、時序信息等信息的 4D 表征空間,實現對全面的物理世界的感知和預測。其次是構建起更基礎的通用語義感知大模型,在視覺大模型基礎上引入圖文多模态模型來提升感知效果,圖文多模态模型可以對齊自然語言信息和圖片的視覺信息,在自動駕駛場景中就可以對齊視覺和語言的特征空間,從而具備識别萬物的能力,也由此可以更好完成目标檢測、目标跟蹤、深度預測等各類任務。
在認知階段,基于通用語義感知大模型提供的 " 萬物識别 " 能力,DriveGPT 通過構建駕駛語言(Drive Language)來描述駕駛環境和駕駛意圖,再結合導航引導信息以及自車曆史動作,并借助外部大語言模型 LLM 的海量知識來輔助給出駕駛決策。
由于大語言模型已經學習到并壓縮了人類社會的全部知識,因而也就包含了駕駛相關的知識。經過毫末對大語言模型的專門訓練和微調,從而讓大語言模型更好地适配自動駕駛任務,使得大語言模型能真正看懂駕駛環境、解釋駕駛行爲,做出駕駛決策。認知大模型通過與大語言模型結合,使得自動駕駛認知決策獲得了人類社會的常識和推理能力,也就是獲得了世界知識,從而提升自動駕駛策略的可解釋性和泛化性。
(毫末 DriveGPT 應用的七大實踐)
在分享了最新 DriveGPT 大模型技術框架後,顧維灏随後也給出了毫末基于 DriveGPT 大模型開發模式的七大應用實踐,包括駕駛場景理解、駕駛場景标注、駕駛場景生成、駕駛場景遷移、駕駛行爲解釋、駕駛環境預測和車端模型開發。
其中,在駕駛行爲解釋方面,毫末 DriveGPT 在原有結合場景庫及人工标注方式來對駕駛行爲進行解釋的基礎上,升級爲引入大語言模型來解釋駕駛環境,讓 AI 自己解釋自己的駕駛決策。接下來,毫末會持續通過構建自動駕駛描述數據,來對大語言模型進行微調,讓大語言模型能夠像駕校教練或者陪練一樣,對駕駛行爲做出更詳細的解釋。
駕駛環境預測方面,毫末 DriveGPT 原來基于海量人駕數據預訓練和接管數據的反饋強化學習來完成未來 BEV 場景的預測生成,現在則在此基礎上,進一步通過引入大語言模型,在使用駕駛行爲數據的同時,讓大語言模型對當前的駕駛環境給出解釋和駕駛建議,然後再将駕駛解釋和駕駛建議作爲 prompt 輸入到生成式大模型,來讓自動駕駛大模型獲得外部大語言模型内的人類知識,從而具備常識,才能理解人類社會的各種明規則、潛規則,才能跟老司機一樣,預測未來最有可能出現的駕駛場景,從而與各類障礙物進行更好地交互。
車端模型開發模式變革方面,毫末正在嘗試用蒸餾的方法,也就是用大模型輸出的僞标簽作爲監督信号,讓車端小模型來學習雲端大模型的預測結果,或者通過對齊 Feature Map 的方式,讓車端小模型直接學習并對齊雲端的 Feature Map,從而提升車端小模型的能力。基于蒸餾的方式,可以讓車端的感知效果提升五個百分點。
此外,毫末 DriveGPT 的駕駛場景理解可以對海量駕駛場景數據進行秒級特征搜索,從而實現更高效的數據篩選,爲大模型挖掘海量高質量訓練數據;駕駛場景标注是采用了開集(Open-set)場景下的 Zero-Shot 自動标注,可實現對任意物體既快速又精準的标注,不僅可實現針對新品類的 Zero-Shot 快速标注,而且精度還非常高,預标注準召達到 80% 以上;駕駛場景生成,可以基于駕駛場景的文生圖模型,通過文字描述批量生成平時難以獲取的 Hardcase 數據,實現無中生有的可控生成;對于駕駛場景遷移,基于 AIGC 生成能力,可實現多目标場景生成,能将采集到的一個場景,遷移到該場景的不同時間、不同天氣、不同光照等各類新場景下,可同時獲取全天候駕駛數據,實現瞬息萬變的高效場景遷移。
現場,顧維灏還給出了 DriveGPT 賦能車端的三大測試成果:
第一個是毫末純視覺自動泊車測試成果。毫末利用視覺感知模型,使用魚眼相機可以識别牆、柱子、車輛等各類型的邊界輪廓,形成 360 度的全視野動态感知,可以做到在 15 米範圍内達到 30cm 的測量精度,2 米内精度可以高于 10cm。這樣的精度可實現用視覺取代 USS 超聲波雷達,從而進一步降低整體智駕方案成本。
第二個是毫末對交通場景全要素識别測試成果。DriveGPT 基于通用感知的萬物識别的能力,從原有感知模型隻能識别少數幾類障礙物和車道線,到現在可以識别各類交通标志、地面箭頭、甚至井蓋等交通場景的全要素數據。大量高質量的道路場景全要素标注數據,可以有效幫助毫末重感知的車端感知模型實現效果的提升,助力城市 NOH 的加速進城。
第三個是毫末城市 NOH 對小目标障礙物檢測的測試成果。毫末在當前城市 NOH 的測試中,可以在城市道路場景中,在時速最高 70 公裏的 50 米距離外,就能檢測到大概高度爲 35cm 的小目标障礙物,可以做到 100% 的成功繞障或刹停,這樣可以對道路上穿行的小動物等移動障礙物起到很好地檢測保護作用。
顧維灏也提到,毫末 DriveGPT 大模型的應用,在自動駕駛系統開發過程中帶來了巨大技術提升,使得毫末的自動駕駛系統開發徹底進入了全新模式,新開發模式和技術架構将大大加速汽車智能化的進化進程。