最近,科技圈最火的話題莫過于 "ChatGPT"。不過,ChatGPT 隻是一種外在表現形式,更值得關注的是背後 AI 技術進展以及未來的應用落地。
甚至有人樂觀地描述 ChatGPT 所帶來的變化:如果說 ChatGPT 之前,AI 最多隻是現有場景産品的一個模塊。那麽,ChatGPT 之後,AI 會重新定義現有場景的産品框架。
是否真如樂觀者所言仍有待觀察,但自動駕駛作爲 AI 落地的重要場景之一,是否會在這波浪潮中有更進一步的發展,仍引起了不少人的探讨。
有人認爲,自動駕駛需要更多的是圖形、圖像、數據的處理能力,對圖像算法的要求更高,與自然語言處理的能力相關性不大,想要 ChatGPT 的能力來實現自動駕駛,目前還不太可能。
當然也有人認爲,ChatGPT 的出現給大家看到了一種可能,那就是經過訓練後的 AI,将會使得高級别的自動駕駛有望在幾年後出現。
自動駕駛是 AI 落地的重要場景之一
爲什麽 AI 技術的進展會讓人關注自動駕駛是否受到影響呢?
觀察自動駕駛的發展曆史不難發現,自動駕駛的每一次重大突破都跟 AI 技術發展同步。
我們知道,AI 其實就是在模仿大腦神經元網絡,通過分析大量的數據來學習一些非常人性化的技能。上世紀 80 年代,神經網絡的第一次實際應用就是發生在自動駕駛領域。
1987 年,卡内基 - 梅隆人工智能實驗室的研究人員試圖制造一種可以自動駕駛的卡車。他們通過爲所有的駕駛行爲人工編寫代碼,爲卡車在道路上遇到的各種情況編寫盡可能詳細的指令,以此讓車輛自動行駛。但遺憾的是,這種方式最終隻能讓汽車實現每秒幾英寸的速度。
人工寫代碼的方式不成,另外一個叫迪安 · 波默洛的博士生選擇了另一種方式:神經網絡。
他給自己的系統命名爲 ALVINN,采用這個系統後,卡車利用車頂攝像頭拍攝的圖像來跟蹤司機們在做什麽,以此觀察如何在道路上行進來學習駕駛。1991 年,ALVINN 以接近 60 英裏的時速從匹茲堡開到了賓夕法尼亞的伊利市。
不過,更直接、更廣泛的影響發生在 2012 年。
多倫多大學教授傑夫 · 辛頓和他的兩名學生——亞力克斯 · 克裏哲夫斯基和伊利亞 · 薩特斯基弗在 ImageNet 圖像識别比賽上拿了冠軍,并且發表論文介紹了算法 AlexNet。這篇論文不僅是人工智能的轉折點也是全球科技行業的轉折點。
目标檢測及圖像識别作爲自動駕駛的關鍵技術,高度受益于計算機視覺算法的突破,因此随着 2015 年斯坦福人工智能實驗室主任李飛飛團隊在 ImageNet 開放數據集上的識别準确率首次超過人類,自動駕駛作爲 AI 最重要的落地場景之一,也進入了發展快車道。
對輔助駕駛的影響更直接,但上 " 車 " 成本要解決
那麽,這次 ChatGPT 的出現會再次成爲自動駕駛的 Milestone 嗎?
一般來說,AI 可以概括分爲語音、視覺、自然語言理解三部分。上一波 AI 浪潮主要是基于視覺上圖像識别技術的突破,而這次 ChatGPT 則是基于 GPT-3 模型的自然語言處理技術,它可以有效地模拟人類語言理解能力,從而幫助人們更好地理解和分析自然語言文本數據。
當我們要探讨 ChatGPT 會對自動駕駛産生哪些影響的時候,我們認爲,首先要弄明白這裏的自動駕駛指的是可量産的低級别的自動駕駛(輔助駕駛)還是高級别 L4 級别的自動駕駛?其次 ChatGPT 指的是一個語言模型還是更廣義的生成模型?
如果從自然語言理解的角度出發,ChatGPT 對于輔助駕駛部分的人機交互的影響更爲直接,而對 L4 級别自動駕駛的影響或許并不大。
乘聯會秘書長崔東樹也在其微信公衆号發文稱,目前的人機交互和智能座艙體系的創新很強,尤其是國内車企的人機交互能力很強。漢語隻有中國企業理解的更深刻。随着未來的底層賦能,國内汽車業界在應用層面将會有更多良好的人機交互效果。
比如通過使用 ChatGPT,車輛可以通過語音或文本的方式與駕駛員進行交互,并向駕駛員提供有關車輛狀态、行駛信息等的實時反饋。
在此之前,雖然已經出現了大量的車載交互系統,但是行業的痛點主要聚焦于 " 理解 " 部分,大部分的車載語音交互系統在 " 理解 " 上并不智能,導緻整個系統功能單一、命令詞單一。ChatGPT 的爆火讓市場看到了解決的希望。
不過,乘聯會秘書長崔東樹也同時表示,電動化是新能源車的核心,智能化隻是錦上添花,未來車企的核心競争力仍然是造好電動車,同時充分利用 ChatGPT 等智能化賦能汽車行業發展。
當然,不管是不是核心,想要 ChatGPT 上車,光有技術突破還不行,一位 AI 行業人士對钛媒體表示," 還需要面臨成本的問題,包括使用成本、雲服務成本、針對性的訓練成本等。"
大模型或成趨勢
但是,如果從更廣義的生成模型來看,大數據、大參數的生成式模型會有助于實現更高等級的自動駕駛。
毫末智行數據智能科學家賀翔在接受钛媒體 App 采訪時表示,車端能力主要包括兩類:感知和認知,感知能力确實主要依靠圖像技術,而認知能力則更依賴 ChatGPT 類似的生成技術。
也就是說,ChatGPT 的重要革命性意義在于:讓 AI 模型進入了知識和推理的時代。當前,自動駕駛最大的短闆恰恰在于決策規劃缺乏足夠的智能。
ChatGPT 使用了一種叫 " 人類反饋強化學習(RLHF)" 的訓練方法,毫末智行數據智能科學家賀翔對钛媒體 APP 解釋稱,GPT 是一個大規模通用預訓練語言模型,GPT1、2、3 主要是參數規模的提升,ChatGPT 主要是引入了人類反饋數據做強化學習。
這種方法的引入可以在訓練中根據人類反饋,保證對無益、失真或偏見信息的最小化輸出。
恰好自動駕駛決策算法中也有一類叫做模仿學習,就是讓機器去學習不同場景下人類駕駛員是怎樣做的。
一般來說,人類司機的每一次接管,都是對自動駕駛策略的一次人爲反饋;這個接管數據可以被簡單當成一個負樣本來使用,就是自動駕駛決策被糾正的一次記錄。同時也可以被當作改進認知決策的正樣本來學習。
" 大數據、大參數的大模型能學到更多的潛在知識,包括不同的環境、不同的場景等,相當于學習到了大量的自動駕駛常識,這種常識對自動駕駛決策至關重要。" 毫末智行數據智能科學家賀翔對钛媒體 App 表示。
也就是說,在自動駕駛研發的過程中采用人類反饋強化學習的思想,可以訓練出模型來驗證、評價機器模型的輸出,使其不斷進步,最終達到人類的駕駛水平。
所以,可以說基礎能力的提升,帶來了想象力及可應用場景的擴張。但目前階段,我們仍然無法準确判斷以 ChatGPT 爲代表的大模型會給自動駕駛帶來多大的變革,一位行業人士對钛媒體 App 表示,通過大模型訓練而來的優秀泛化能力,可能讓世間再無 corner case。
corner case 是指在自動駕駛中是指行駛過程中可能出現,但發生頻率極低的小概率事件。盡管平時很少會遇到,但對于自動駕駛系統來說,遇到無法做出決策的 corner case 時,很可能會導緻緻命的交通事故。
ChatGPT 的橫空出世則讓行業認識到,不斷去累積公裏數,一直這麽跑下去是可以獲得更高級别的自動駕駛技術的跨越。
事實上在此之前,不管是國外的特斯拉,還是國内的小鵬、百度、毫末智行都已經在探索 " 大模型 " 的路線了。
特斯拉在 2020 年宣布将基于深度神經網絡的大模型引入其自動駕駛之中,到現在已實現了純視覺 FSD Beta 的大規模公測;小鵬在 2022 年 1024 科技日中表達了使用大模型打通 XNGP 全場景能力的觀點;百度Apollo 認爲文心大模型将是提升器自動駕駛能力的核心驅動力。
毫末智行則早在 2021 年宣布要借助大模型提升數據處理能力,今年 2 月 17 日,毫末智行将人駕自監督認知大模型正式升級爲 "DriveGPT",将持續引入大規模真實接管數據,通過人駕數據反饋的強化學習,來不斷提升測評效果,同時也将 DriveGPT 作爲雲端測評模型,用來評估車端小模型的駕駛效果。
不過,高級别的自動駕駛汽車的開發是一個複雜的多學科領域,涉及廣泛的技術和監管挑戰,人工智能技術進展可以帶來一定的推動作用,但是這并非一個短期可以實現的問題。
有報道稱,GPT3.0 涉及了 1700 億參數,内存達 300 多 GB,訓練過程耗費 1200 多萬美金。上述行業人士表示,自動駕駛算法是要跑在車上,這麽大的模型能不能部署到車端?又需要耗費多少算力支持?另外,自動駕駛不能依靠重複性、簡單的路況數據堆疊就能完成,因此如何保證數據量大且有效也是一個關鍵的問題。(本文首發钛媒體 App, 作者|韓敬娴,編輯|張敏)
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App