文 | 極智 GeeTech
1942 年,科幻小說家艾薩克 · 阿西莫夫(Isaac Asimov)在他的短篇小說《轉圈圈》(Runaround)中第一次明确提出了 " 機器人三定律 ",這一定律也被稱爲 " 現代人工智能技術的基石 "。
阿西莫夫可能沒有完全預見到,八十年後的世界會多麽接近他的科幻夢想。
如今,人們生活在一個由人工智能滲透的世界裏,這個世界在許多方面已超越阿西莫夫的想象。2024 年,我們見證了一系列人工智能技術的創新與湧現。從 AI 視頻生成模型 Sora 到 GPT-4o,一系列生成式人工智能新技術相繼問世、更新叠代,讓人感覺到似乎 " 未來已來 "。
這一年,大模型、端到端、世界模型、車路雲等已成爲交通智能化領域最具革命性的技術應用,不僅提升了駕駛體驗,還爲城市交通的安全性、效率和可持續性帶來新的可能。
展望 2025 年,随着人工智能與交通的進一步深度融合,哪些技術領域充滿機遇?誰将引領新一年的行業發展?
BEV+OCC 感知能力困局待解
對照着自動駕駛領域這幾年的行業熱詞按圖索骥,可以把握自動駕駛算法模型的發展脈絡。在特斯拉的帶動下,自 2021 年至今,自動駕駛行業這幾年的動态熱詞依次爲:BEV+Transformer、OCC 占用網絡、無圖 NOA、端到端。
BEV(鳥瞰圖)網絡通過矢量化的鳥瞰視角檢測白名單障礙物,OCC 通過體素化的占用網絡預測 3D 空間的占位情況,實現對通用障礙物的感知,到無圖 NOA 的階段,自動駕駛算法可以通過車道網絡實時建圖,構建道路拓撲。
再到今年大火的端到端,一方面,由于消除了傳統分模塊方案中各種小模型的冗餘,計算資源得以集約化使用,神經網絡的參數量或規模得以進一步提升;另一方面,無論是分段式端到端還是一體式端到端,感知到決策之間的傳輸帶寬增加,信息損失減少,進一步增強了系統的感知能力。
對于駕駛而言,感知交通環境信息越全面、越及時,駕駛的安全性也就相對越高。因此,自動駕駛系統對感知能力的需求是沒有上限的。
BEV 網絡固然可以檢測白名單障礙物,但能檢測到 1000 多種物體基本上就是目前 BEV 網絡的感知上限。OCC 占用網絡可以檢測通用障礙物,但 OCC 算法的運算量跟随網格的大小成倍變化,網格大小縮減一倍,OCC 算法的運算量将增加 8 倍,受限于算力和實時性,OCC 網格的大小一般隻能做到 10 厘米左右,這就意味着它很難檢測微小物體。在很多情況下,10 公分大的物體足以造成交通事故了。
不僅如此,那些和駕駛安全、效率、舒适性密切相關的天氣、光照、雨霧等複雜語義,也是目前的 BEV+OCC 所解決不了的,而光照和天氣恰恰是可以影響自動駕駛車輛行駛的關鍵要素。
數據正在成爲端到端最大瓶頸
相較于分模塊的自動駕駛方案,端到端方案主要解決了兩個問題。首先,從人工邏輯代碼到數據驅動,人工智能真正擺脫了 " 人工 ",從此可以使用海量的數據叠代模型的性能;其次,通過自動抽取信息,減少信息損失,可以充分利用數據中的信息。
在過去幾年的時間裏,随着 Transformer+BEV+OCC 的問世,分立級聯的感知模塊已經慢慢完成了到端到端感知的切換,自 2023 年下半年以來這波端到端狂潮引發的 " 從人工邏輯代碼到數據驅動 " 的轉變,其實主要體現在決策和規劃層面。
決策和規劃從一闆一眼的手工編寫規則進化到基于神經網絡的經驗直覺,這種 AI 化和端到端化使得可以通過海量數據不間斷訓練優化駕駛策略,複現拟人且絲滑的老司機腳法。決策和規劃的進步是巨大的,相比之下,感知能力的進步并不大。
端到端最核心的一點在于将自動駕駛算法進行了全面的 AI 化,轉向了完全的數據驅動,但這意味着需要更加海量的數據進行模型的訓練。
但對于到底需要多少數據才能訓練出一個完美的自動駕駛模型,業界并沒有一個統一的标準。之前有報道稱,特斯拉 2024 年初的視頻訓練片段數量将近 3000 萬個。按照每個視頻片段 30 秒、30FPS 的幀率、8 個攝像頭計算,訓練圖片數量高達 220 億張。
此外,這種規模的訓練數據訓練出來的自動駕駛系統的等級仍未達到 L3,自動駕駛系統能力每提高一個等級,需要的訓練數據量至少會提升一個數量級,也就是說,要達到 L4,至少需要訓練幾億個視頻片段。
端到端雖然強化了數據的作用,但大模型的引入卻增加了龐大的數據标注需求。在基于語言模型的自動駕駛大模型中,其輸入是當前駕駛場景的圖片,其輸出是各類交通參與者、道路拓撲、交通信号标識的語義信息,這種模型不具備自回歸特性,進行有監督學習,其訓練需要海量的數據标注工作。
這引發了一個新的問題:如果端到端自動駕駛模型的訓練還需要繼續打标簽,在源源不斷産生的海量數據面前,還如何保證高效訓練?這也是一直以來影響端到端進一步發展的最大阻礙。
世界模型實現從感知到認知的躍遷
無論是 BEV 檢測的白名單障礙物還是 OCC 占用網絡檢測的通用障礙物,從本質上來說,都屬于基于判别式 AI 實現的對分立物體的單獨感知。
生成式 AI 大模型具備的超強理解能力使得視覺語言模型、大語言模型、世界模型可以建立對當下場景的整體認知,實現從感知到認知的階躍。
舉例來說,BEV 可以檢測到一個行人,大模型可以通過意圖理解判斷出這是一個要橫穿馬路的行人。BEV 網絡可以檢測到前方的一個車輛,大模型可以更進一步,通過長時序信息判斷出這是一個即将減速的車輛。
也就是說,在基于判别式 AI 的物體識别之外,生成式 AI 的意圖理解和長時序理解能力使其可以建立對整體駕駛環境的理解,更加貼近人類駕駛的知識邏輯。
自動駕駛真正的挑戰并不在于能否檢測(感知)出各個獨立的物體,而是要準确判斷(認知)物體的意圖,根據車輛、行人微妙多變的姿态做出準确的博弈和決策,隻有建立了這樣複雜的語義理解和場景理解能力,才能像老司機那樣遊刃有餘地駕馭各種路況。而從部分到整體,從分立到連續,從感知到認知,正是大模型給傳統自動駕駛感知技術棧帶來的重大轉變。
世界模型的引入标志着自動駕駛向數據驅動智能的關鍵轉變,在這種智能中,預測和模拟未來情景的能力成爲安全和效率的基石。
數據稀缺性問題,特别是在如數據标注等專業任務中,突顯了世界模型的創新性和必要性。世界模型的訓練數據是視頻序列,輸入是當前時刻視頻,輸出是下一時刻視頻,可以像語言模型拿自帶标簽信息的文字序列那樣進行無監督訓練,不再需要數據标注,這也就解決了傳統端到端模型訓練需要精确标注海量視頻數據的巨大難題。
同時,通過從曆史數據中生成預測情景,世界模型不僅規避了數據收集和标注帶來的限制,還增強了在模拟環境中訓練自主系統的能力,這些環境可以反映甚至超越現實世界條件的複雜性。
這種方法預示着一個新時代的到來,在這個時代,自動駕駛汽車具備反映某種直覺的預測能力,使它們能夠以前所未有的複雜程度響應各類交通環境。
世界模型可以通過模拟和預測其他車輛、行人和動态環境變化,從而幫助自主系統做出更安全、更高效的駕駛決策。例如,世界模型可以預測交通流量、路況變化以及潛在的風險因素,使自動駕駛車輛能夠提前做出反應,避免事故和優化行駛路徑。
盡管世界模型已經表現出巨大的技術潛力,但其發展和應用仍面臨挑戰。
首先,是數據的多樣性和質量。世界模型依賴大量高質量的數據進行訓練和測試。然而,獲取和處理這些數據往往需要耗費大量時間和資源。如何确保模型從多樣化和高質量的數據中學習,是下一階段世界模型在發展過程中迫切需要解決的問題。
其次,巨量的計算資源需求。訓練和運行世界模型需要大量的計算資源,特别是在處理高維數據和複雜場景時。
第三,模型的可解釋性。世界模型的複雜性使其決策過程難以解釋和理解,這将在醫療診斷、自動駕駛等應用場景中可能帶來潛在風險。
車路雲,一個正在發生的潮流
如果說以上自動駕駛技術都是 " 舶來品 ",那麽車路雲一體化則是一個帶有鮮明 " 中國智慧 " 的技術方案。
2024 年,是車路雲一體化全面落地的裏程碑年份。面對汽車智能化、網聯化的大勢所趨,中國率先提出車路雲一體化與智能網聯汽車融合發展的新路徑,并發揮中國在統籌規劃、基礎設施建設、信息通信技術等方面的優勢,積極開展試點。
1 月,工業和信息化部、公安部、交通運輸部等五部門聯合印發《關于開展智能網聯汽車 " 車路雲一體化 " 應用試點的通知》,這是 " 車路雲一體化 " 首次被寫入國家政策文件。7 月,五部門正式對外公布《關于智能網聯汽車 " 車路雲一體化 " 應用試點城市名單的通知》,共計 20 個城市進入試點,從南到北、由西至東覆蓋全國。
與單一技術最大限度挖掘自身潛力不同,車路雲一體化更多體現的是一種 " 衆智 ",其通過集成通信基站、衛星通信和定位、各類傳感器、雲控平台等基礎設施,形成一個信息共享、高效協同的車路雲網絡,爲普通汽車、智能汽車、機器人、無人機等所有智能設備提供系統級的實時數據服務,同時能夠将實時數據信息在雲平台進行海量交互與智能分析,在系統層面解決全局安全、全局效率與全局博弈問題。
站在系統發展角度看,自動駕駛追求越來越極緻的智能化,而車路雲一體化則追求的是極緻的系統智能。車路雲網絡讓車輛不再是孤立的智能體,而是融入到一個更大範圍的智能交通生态系統中。
道路上布設的智能路側設施如 AI 數字道路基站、V2X 通信設備能夠實時監測路況,通過多源數據融合技術,将不同類型、不同來源的數據進行有機整合,從而爲後續的數據分析提供更豐富的素材。
根據車百智庫研究報告顯示,一輛 L4 級别自動駕駛汽車,每日通過車内外傳感器采集的行駛數據、環境數據和行爲數據等,已達到 10TB 量級,是傳統汽車的 5-10 倍。其預計,在路上行駛的智能汽車每年上傳到雲端的數據超過 7 萬 PB。
在收集到海量的交通數據之後,雲端利用大數據和 AI 算法,對數據進行分析與挖掘,從中提取有價值的信息。例如,通過對交通流量進行數據分析,交管部門可以根據實時交通流和道路情況智能調整配時方案,提高道路通行效率。同時,車輛也能接收到車路雲網絡的信息,提前了解道路上的障礙和危險,從而采取相應措施确保行車安全。
在數據分發與共享過程中,保障數據的安全性至關重要。智能車輛所采集的數據涵蓋了多種傳感器類型和數據源,通過這些數據不僅能夠高精度地全面掌握城市各交通要道的狀況,其中還可能會牽扯到重要區域的地理信息、人員流量、車輛流量等敏感數據,以及臉部識别、聲紋、動作等個人信息,這些數據一旦被洩露或被非法調用和共享,不僅會侵犯個人隐私,還可能會危及到國家安全。因此,在數據采集後,要根據國家相關法律法規,對數據進行分類分級、降密、脫敏、加密等操作,爲車路雲數據的共享應用提供安全合規保障。
車路雲一體化爲城市交通管理的智能化升級提供了一條具有實踐意義的路徑。随着技術的成熟,車路雲網絡還将助力數字智能社會進入到一個整合系統,其将整合地面網絡、低空網絡、衛星網絡,形成空天地一體化的通感算網絡。最終,車路雲網絡将發展成爲智能交通、低空經濟、具身智能、AI 智能終端的底層實時數據網絡,爲智能設備的大規模運行與自主交互協作提供重要支撐。
未來十年,所有行業都值得用人工智能重新做一遍。毫無疑問,人工智能仍将是 2025 年最受關注的技術。從自動駕駛到車路雲一體化、從交通基礎設施智能化建設到城市交通智能化管理,人工智能将越來越深地與交通領域進行融合,并拓展出更多超乎想象的全新應用場景,在爲人們帶來更智能、便捷出行方式的同時,也重塑着智能交通的未來。