This is all nets baby. Nothing but nets.(它完全依靠神經網絡,再無其他。)
去年 8 月,特斯拉 CEO 埃隆 · 馬斯克在他的 Model S 上,親自演示了當時尚未正式發布的 FSD Beta v12。
FSD Beta v12 的特别之處在于,它是世界範圍内第一個完全基于神經網絡的端到端自動駕駛系統,換句話說,這是真正意義上的「由 AI 來開車」。
以當下視頻直播的标準來看,那場畫質不如十年前的智能手機、畫面頻繁旋轉抖動、主播專業素質堪憂的直播,顯然算不上一場成功的直播。但「AI 開車帶馬斯克去紮克伯格家」這個話題實在太有看點,在線觀看人數接近 1200 萬人。
更重要的是,在這場長達 45 分鍾的直播中,FSD Beta v12 隻出現了一次人爲接管,其他時候,它的駕駛風格基本無異于常人。
剛開始直播,馬斯克就遇見了一個非常規的路面狀況——因施工而臨時改道。但 FSD 沒有絲毫猶豫,以并不算低的速度輕松穿越,馬斯克當時還稱,這套系統「從未見過這樣的路面」。
整場直播下來,FSD v12 似乎有着不錯的表現,但還是有不少人發現了問題——加州矽谷帕羅阿爾托的路況實在是太過友好。
在帕洛阿爾托(Palo Alto),沒有随處橫穿馬路的行人,也沒有突然從盲區竄出的摩托車和自行車。就連見慣了寬闊路面的美國網友也表示,該給 FSD v12 上上強度了,這種路況,根本不夠看。
但現在,随着 FSD Beta v12 正式向北美用戶推送,我們已經可以從許多海外博主的視頻裏,窺探它的真實能力。
V12,劈開前後兩個智駕時代
YouTube 用戶 Whole Mars Catalog 是最先收到測試版本的博主之一,他從 2020 年起就在不斷測試特斯拉 FSD 的能力。
從他的視頻來看,FSD Beta v12 在雨夜等「老大難」的場景,有着極佳的表現。
▲雨夜窄路會車,視頻未經加速處理
白天更是不在話下。拐進小路,到達目的後靠邊把車停好,而不是像之前那樣停在路中間。
與 FSD Beta v11 相比,v12 的繞行速度提升明顯,面對停在路上的同一輛車,搭載 v12 的繞行動作完全可以媲美人類駕駛員,v11 則被「困」在馬路中間,駕駛員不得不踩上一腳油門,幫助車輛通過。
▲升級了 FSD Beta V12 的 Model S
▲仍搭載 FSD Beta V11 的 Model Y
此外,Whole Mars Catalog 認爲,FSD Beta v12 的無保護左轉與之前的版本相比有了顯著改善,識别交通信号燈的能力也更強了。
在 5 個月前的那場直播中,馬斯克唯一一次對車輛進行接管,就是因爲紅綠燈的錯誤識别。在直播的中段,Model S 在一個十字路口錯将左轉綠燈看成了直行綠燈,随即起步行駛,被馬斯克一腳攔下。
▲認錯的紅綠燈
馬斯克尴尬笑笑,表示會給 FSD 看更多的「紅綠燈視頻」,來解決這個問題。沒錯,和以往的 FSD 不同,FSD Beta V12 的成長,靠的不是一行行代碼,而是一條條視頻。
特斯拉在 FSD Beta V12 的發布說明中指出,「FSD Beta V12 将城市街道的駕駛堆棧升級爲單個端到端神經網絡,經過數百萬個視頻剪輯的訓練,取代了超過 30 萬行顯式 C++ 代碼」。
所謂端到端(End-to-End)方案,指的是「感知 - 決策 - 控制」的整個流程都在一個統一的系統框架内,通過深度學習的方法完成訓練,而不是按照傳統的方式分解成感知、定位、路徑規劃、控制等多個模塊,由上層模塊輸出結果,指導下層模塊去運行。
模塊化方案每個模塊間串聯的事高度抽象的結果,可能是錯誤的,下一個預測模塊無法進行誤差修複,或者需要大量後處理或判斷來恢複誤差,效果也不一定很好。同時,每個模塊分别需要數據集,标注需求的金錢消耗非常大,分别部署對算力的要求也更高。
上海 AI Lab 浦駕 OpenDriveLab 團隊研究員陳立此前在接受第一财經采訪時表示,模塊化方案在決策和控制部分目前仍以專家規則爲主,通過專家系統進行人工調優,泛化能力弱。
這就像是一個認真聽講,但不太有發散思維的學生,老師教的全都會,一旦遇到老師沒教過的,可就不好說了。可以說,這是兩種不同的方法,一種是給到正确答案,照做就行,另一種則是給到解題思路,再舉一反三。
FSD,必須是一位「好學生」
FSD Beta v12 之所以引發大量關注,馬斯克之所以開直播宣傳,歸根到底,是因爲改變了實現智駕的手段。
隻要前面有紅燈亮起,大家就都會在白線後停車。
于是 FSD 由此學習了「紅燈停綠燈行」這一法則,這是 FSD 自我學習的成果,而非人類告訴它的标準答案,這便是神經網絡,或者用一個更爲通俗的詞—— AI。
通過學習大量真實駕駛員的駕駛行爲,來習得自動駕駛,這是一個由新司機向老司機轉變的過程,開得越多,見的世面當然也就越多,積累經驗,成就大我。和人類不同的是,FSD 可以吞噬海量内容,再從中學習,這個效率和大多數隻在上下班時才會開車的打工人相比,可要高得多了。
但神經網絡也非十全十美。
回想一下,在你的成長過程中,是不是會碰到一些可能會将你「帶偏了」的壞人—— FSD 同樣會看到一些不守規矩的人類駕駛員所「演示」的駕駛陋習。
在馬斯克的直播過程中,坐在副駕的工程師提到,在美國,隻有 0.5% 的駕駛員會在停止标識前完全停下車來進行觀察,絕大多數人會選擇慢速通過,然而,監管部門會要求智駕系統必須在标志前完全停住、爲此,特斯拉需要專門「教導」FSD,提高正确操作「演示」的權重,讓它「學」點好的。
在 FSD Beta v12 中,系統能夠準确識别每個路口的停止标識,停車觀察,在達到通行條件的情況下,響應也足夠靈敏,此前的版本可能會因路邊的行人或自行車而猶豫半天。
不過 Whole Mars Catalog 也表示,目前的 FSD 仍不完美,「還沒準備好向所有人推出」。例如在一些分叉路口,方向盤會左右徘徊,拿不定主意;在一些比較空曠的路口,車輛偶爾還會停下許久,過于謹慎。
▲車輛在這個路口停了足足有 15 秒鍾
馬斯克此前曾表示,FSD v12 将摘掉測試版的帽子,不再帶有「Beta」尾綴,可現如今推送給用戶的版本中依舊帶有「Beta」标識。隻能說,FSD 要學的還有很多。
另一個值得考量的問題是成本。
馬斯克提到,特斯拉每年在 FSD 上的投入高達 20 億美元,這無疑是一個燒錢生意。對于其他仍掙紮于利潤的車企來說,掏不掏得起這個錢,是擺在面前躲不掉的話題,光是模型的訓練,就是一筆天文數字。
特斯拉 FSD Beta V12 的視頻訓練需要多達 1.5 萬塊英偉達 H100 GPU,這讓特斯拉上到了英偉達 2023 年第三季度采購數量榜單的前 12 位。盡管特斯拉在 2021 年發布了自家的超算 Dojo,該超算也在 2023 年成功量産,但目前特斯拉仍舊需要英偉達,僅有很少一部分訓練用到了 Dojo。
英偉達的「大客戶榜單」上同樣有着中國品牌的身影。爲了應對特斯拉的挑戰,國内自動駕駛産業鏈也已經在部署端到端方案,包括針對端到端模型訓練中的仿真測試等。
在同一個榜單中,深耕智駕和 AI 許久的百度排名第 8,一共購入了 3 萬塊英偉達 H100。在百度之下的是阿裏巴巴,共購入 2.5 萬塊 GPU。需要指出的是,小鵬曾在 2022 年 8 月宣布将于阿裏巴巴共同打造一個算力爲 600PFLOPs(每秒千萬億次浮點運算)的智算中心。
蔚來則更爲關注車端算力。目前蔚來的智能駕駛系統采用 3 4 顆英偉達 Orin X 芯片,整體算力 1000TOPS,而 NIO Day 2023 中神玑 NX9031 可以實現超越 4 顆智駕芯片的性能。 也就是說,它的算力将會在 1000TOPS 以上。
随着大模型的不斷發展,智駕對于算力的要求還将進一步提高,所謂的「算力無用論」,隻能是一紙空談。