關注智能駕駛的小夥伴這個禮拜應該都被馬斯克刷屏了!
億萬富翁的單向赴約 +FSD V12 Beta 版直播實在太有話題性了,就算視頻畫質差到掉渣,我還是沒忍住圍觀了。
視頻中小馬哥爲了展示 FSD V12 Beta 版的能力,不惜以身涉險甚至以身試法,雙手多次離開方向盤,親自舉着渣畫質的 " 座機 " 來爲網友們做直播展示。雖然沒有遇到攔截的警察,但他的這番神操作就算在美國,同樣也是違法行爲,至少需要繳納 100 美元罰款。大家可不要随意模仿哦~
但話說回來,這 FSD V12 Beta 版到底有什麽過人之處?和我們的城區領航輔助又有什麽區别呢?
傳統的智能駕駛,基本都按照感知、決策、執行分爲個 3 個模塊。目前咱們國内的傳統的智能駕駛一般都還是 CNN 的主幹網絡來提供最初的感知結果,然後系統會把感知結果給到決策部門,由時候決策部門根據我們已經寫好的算法規則來給出控制策略,最後再由執行模塊最終輸出控制車輛的行爲。
就像咱們車上的語音交互,當我們給出指令時,系統會通過抓取關鍵詞,然後從豐富的答案中匹配一個最佳的結果,如果我換一種說法,它就會變成 " 人工智障 "。
而特斯拉的 FSD V12 的端到端,可能已經完全推翻了我們現有在使用的這套智駕邏輯。神經網絡已經吞掉了原本的規則棧,系統不需要糾結識别沒識别的問題,隻需要把捕捉到的基礎畫面給到神經網絡,系統就會自己根據畫面中物體的位置、活動規律等信息與之前學習過的畫面進行融合比對按照經驗再輸出決策。整個過程完全由神經網絡自己來完成。
簡單來說 FSD V12 這就相當于一套可以理解語義的語音交互系統,它可以脫離框架,直接給出我們要的最佳答案。
以上内容,聽起來或許可能容易理解。下面我們就直接代入場景,來看看 FSD V12 Beta 版的表現究竟如何?
1. 基礎能力
馬斯克公布的視頻中,FSDBeta 版在環島、障礙物、紅綠燈識别上,整個直播過程中大部分場景基本都能處理的很好,遇到行人減速甚至停車,這樣的基本操作和我們的傳統智駕方案基本都能實現,但這次直播馬斯克行駛的路段和國内的北京廣州等地對比起來,顯然在難度上還是差點意思。
2. 失誤場景
在直播的 45 分鍾裏,唯一的一次失誤是因爲紅綠燈的識别導緻,當時是車輛需要直行時左轉燈變綠了,差一點闖紅燈。咱們的輔助駕駛,例如小鵬、華爲的方案,目前對于識别紅綠燈也都已經是基操了,但偶爾紅綠燈識别有誤的情況也确實存在。就比如說上次在五城智駕測試中,阿維塔 11 就曾因爲紅綠燈的位置做了變更、高精地圖鮮度不夠而導緻了一次識别有誤。雖然原因不同,但結果卻是一樣的,對于用戶來說,二者在體驗上其實沒有太大的差異。
3. 彩蛋
這次直播 FSD V12 最讓我驚豔的地方是它多了可以一個靠邊停車的操作,這也是目前的 FSD、傳統智駕方案中我們所沒有見過的。Ashok 在直播中還透露,将來的 FSD 可能還會增加語音指令的功能,我們可以指揮它如何開,也可以告訴它我們要去哪裏。FSD 就可以根據指令分析語義信息并執行操作。
既然短期内體驗上并沒有顯著差異,爲什麽還要做端到端呢?
傳統智駕方案中感知、融合、決策、控制整個過程會有點像流水線,每一步我都要明确輸出一個結果。下一步始終隻接收上一個模塊給到的信息,除了系統需要處理的數據和校驗信息量大之外,也需要大量的人力及研發成本,而且傳遞信息的過程可能存在一定的信息損失。
如果把之前 BEV+Transformer 的加入比作是我們從數數的階段,學會了用算盤這樣的工具。那麽端到端的大模型,就相當于直接用上了計算器。在研發成本、人員、效率、信息的準确性上都能夠得到大幅提升。
寫在最後
假設現在中國有 5 萬自動駕駛研發的工程師、10 萬個相關從業者、30 萬個仿真、數據标注的工作者,差不多 50 萬人在做這件事情。如果端到端真的落地了,AI 就可以自己玩了,那這 50 萬人裏面,95% 的人都得失業。
當然,端到端的落地的難度僅用文字是無法完全呈現出來的。運行這一套大模型,參考的維度會更多,對相關的技術人員的要求會更高,采集的數據樣本數量、質量都會有更多更高的要求、那麽與此同時計算平台就需要非常強大的硬件配置來支持,此外模型訓練所需要的龐大資金也會是一大問題。
而且投入這些成本之後,能達到什麽樣的預期效果究竟會是什麽樣的?這就很難評了。但可以預見的結果是,端到端這條路我們一定會走,但當下顯然還不是最好的時候。
✦
END