圖片來源 @視覺中國
文 | HiV 大蒜粒車研所,作者 | 三少爺,編輯 | 祥威
最近,特斯拉向在美用戶推送了版本号爲V12.1.2 Beta 的端到端 FSD,版本推送後,海外的特斯拉車主和視頻博主上傳了一些測試視頻,測評視頻本身沒有太多好說的,真正值得關注的是「端到端」。
自馬斯克首秀基于端到端的 FSD 以來,自動駕駛行業的從業者以及消費者群體中,有很多人對端到端的自動駕駛解決方案表現出了極大的讨論熱情。小鵬、小米汽車等已經開卷「端到端」技術。
那麽,到底應該怎麽理解特斯拉 FSD 的端到端呢?
01 理解 FSD 的端到端
我們可以通過結構、形式、原理、開發範式幾個不同的剖面,理解特斯拉 FSD 的端到端大模型。
結構上,主流的自動駕駛系統會采取分模塊方案,将 AD 系統按照感知、規劃和控制進行劃分,先對周圍的動靜态交通參與者和路網結構進行準确感知,再規劃自車的行車軌迹,最後通過執行機構對車輛進行閉環控制。
在分模塊方案中,模塊與模塊之間仿照人類的認知步驟,設計了清晰的接口和界面。
而特斯拉 FSD 的端到端大模型,則消除了自動駕駛系統的感知和定位、決策和規劃、控制和執行之間的斷面,将三大模塊合在一起,形成了一個大的神經網絡。
(圖片來自網絡)
形式上,分模塊方案的軟件采取人工編碼和神經網絡相結合的形式,且人工編碼存在較高的占比,尤其是規控環節,大部分車企還依賴規則驅動、傳統算法和手工編碼。
相比之下,特斯拉 FSD 的端到端方案采用全棧神經網絡實現,直接輸入傳感器數據,輸出轉向、制動和加速信号,全程沒有任何編碼。
當然,技術的深海裏隐藏着很多秘密,FSD 端到端的全棧神經網絡也許隻是一種營銷上的說法,并不一定整個自動駕駛軟件裏不存在任何代碼。
畢竟,馬斯克在自動駕駛方面向來嘴 都比較大,去年第一次展示端到端 FSD 時就宣稱消除了所有代碼(30 多萬行),但他旁邊的助手(聽口音是那位印度裔的自動駕駛部門負責人 Ashok Elluswamy)提醒道,FSD 裏頭還埋着 3000 多行 C++ 代碼呢!
從原理層面看,端到端大模型是對海量駕駛視頻片段的壓縮。
最近,前特斯拉自動駕駛部門負責人 Andrej Karpathy 做了一期 LLM 的科普視頻,AK 表示,本質上,基于大語言模型 LLM 的生成式 GPT 是将互聯網級别 TB 或 PB 級的數據壓縮到了 GB 級别的參數文件裏。
類比一下,也可以認爲特斯拉端到端的 FSD是将上千萬個視頻片段裏包含的人類駕駛知識壓縮到了端到端神經網絡的參數裏。
或許,我們可以從人類自身得到更加貼近的類比。
想想我們的一生,吹過那麽多的風,淋過那麽多的雨,品嘗過一次次的歡笑、淚水、幸福、痛苦,經曆過一個又一個難眠的夜晚,人生的經驗不也在一次次的經曆中被升華、提煉,并最終刻入了腦袋的神經元和突觸裏了嗎?
在開發範式上,全棧神經網絡化的 FSD 是軟件 2.0 時代的産物,完全基于數據驅動。
即,在神經網絡層數、結構、權重、參數、激活函數、損失函數固定下來後,訓練數據(質量和規模)便成了決定端到端神經網絡性能表現的唯一因素。
分模塊方案介于軟件 1.0 和 2.0 之間,除卻采用神經網絡的那部分,采用人工編碼的另一部分依然依賴于設計規則的優劣和傳統算法的性能。
到這裏,想必大家對端到端已經有了一定的概念。接下來,同樣結合結構、形式、原理,開發範式,談一談它的優缺點。
02 端到端的優缺點
特斯拉推翻了用在分模塊方案下的開發、仿真、測試、叠代手段,重構了工具鏈,收集并整理了大量訓練視頻片段,付出了巨大的沉沒成本,新增投入了巨大的資源。那麽,以逐利爲天性的資本家的卓越代表馬斯克,到底看上了端到端的什麽優點?
(圖片來自廣汽研究院)
我們可以借用廣汽研究院這張 PPT,它很好地總結了端到端大模型相較于分模塊方案的優缺點。
優點有三:
具備更高的技術上界;
數據驅動解決複雜長尾問題;
消除嚴重的模塊累計誤差;
缺點有二:
缺乏可解釋性;
需要海量的高質量數據。
「具備更高的技術上界」是因爲可以進行整體優化。端到端的一體化結構方便進行聯合優化、尋求整體最優解。
端到端大模型能夠服務于整體目标、實現全局最優,和它的全棧神經網絡形式息息相關。一個大一統的感知、預測、規劃和控制網絡,可以使用鏈式法則無障礙地從輸出層(橫縱向控制)向輸入層(傳感器)逐層反向傳播誤差,以最小化整體損失函數爲目标,更加準确地更新每個網絡層中的參數。
這顯然是分模塊自動駕駛方案無法實現的,在分模塊方案裏,模塊與模塊之間存在「梯度斷開」現象。
看看下面這張圖就知道了,想一層層地反向傳播,必須保證中間鏈條不能斷,隻要神經網絡中間有一層出現了中斷,反向傳播就隻能望河興歎了。
「消除嚴重的模塊累計誤差」同樣來自于全棧神經網絡的貢獻。
大家可以把具備多層結構的神經網絡的前向傳播理解爲進行多次函數計算,上一層和下一層之間能否傳遞全量信息是運算是否準确的關鍵。
對于分模塊方案來說,模塊和模塊之間無法傳遞全量信息,導緻了「累計誤差」,相較之下,全棧神經網絡上下層之間可以傳遞全量信息,從而消除了模塊累計誤差。
「數據驅動解決複雜長尾問題」這個表述可能會讓很多人蒙圈,畢竟,建立數據閉環,以數據驅動覆蓋更多的 corner case,是過去一兩年裏國内車企的宣傳重點。其實沒有矛盾,本土車企着力宣傳的 BEV、Transformer、占用網絡面向的是基于數據驅動的感知,但在規控層面,大部分車企還是基于規則。
和感知一樣,規控同樣面臨長尾問題。
基于規則和數據驅動都是解決複雜長尾問題的方式。算法、算力、數據是驅動人工智能發展的三要素,在這個框架下,可以認爲 Rule based 是「算法驅動」,端到端大模型是「數據驅動」。
與其針對層出不窮的複雜長尾問題,手工編碼規控策略,不如設計規控神經網絡,通過長尾場景下的訓練數據更新模型參數,從理論上來說這是更加一勞永逸的做法。
端到端「缺乏可解釋性」确實是客觀存在的缺點。不過,不隻是 FSD 端到端,互聯網巨頭正在搞的 GPT 和生成式 AI 的可解釋性也非常差,科學家到現在也沒有研究明白大模型突現的行爲和湧現的能力到底來自哪兒。
GPT 和端到端 FSD 遵循的都是大算力 + 海量數據的暴力美學,能力來源和機制目前還難以精确地解答。
不過,雖然解釋性差,互聯網巨頭們還是頭也不回地加碼大模型賽道,消費者們也把它們用出了花。很多事情要知其然知其所以然,端到端和生成式大模型的機制,也許科學家們會在未來給出解答。
「需要海量的高質量數據」與其說是一個缺點,倒不如說是門檻。
在自動駕駛技術的世界,訓練算力、數據、AI 人才、資金都需要門檻,而在這些要素中,數據是最重要的。
Andrej Karpathy 曾經在一次訪談中表示過,特斯拉自動駕駛部門将 3/4 的精力用在采集、清洗、分類、标注高質量的數據上面,隻有 1/4 的工作用于算法探索和模型創建,這種精力分配,足以說明數據在特斯拉自動駕駛技術棧中的地位。
尤其是端到端這種完全數據驅動的大模型,數據的規模和質量比參數量更能決定模型本身的表現。
03 端到端的訓練投入
2023 年 7 月的特斯拉 Q2 财報電話會議上,馬斯克曾經介紹過端到端 FSD 的訓練規模:
「特斯拉花了大約一個季度的時間完成了 1000 萬個視頻片段的訓練。訓練了 100 萬個視頻 case,勉強可以工作;200 萬個,稍好一些;300 萬個,就會感到 Wow;到了 1000 萬個,它的表現就變得難以置信了。"
訓練視頻片段當然不會止步于 1000 萬。
事實上,訓練工作是一直源源不斷進行的,特斯拉一方面繼續收集高質量的視頻片段,一方面繼續加大訓練算力的投入,以提高訓練效率、縮短訓練時間。
2023 年的特斯拉投資者日上,馬斯克公開表示,到 2025 年底,特斯拉會将訓練算力推高到 100E。和國内廠商 1-2E(華爲最近的公開數據爲 2.8E)的訓練算力相比,100E 是一個相當驚人的數字。
最近這段時間,Dojo 負責人離職,大概率會影響「道場」的部署,而且,那麽多廠商在搶英偉達的 A100/H100,特斯拉未必能如願買到那麽多芯片,所以,特斯拉的訓練算力能推高到什麽程度,也許比馬斯克的預言稍微保守一些(在自動駕駛上,馬斯克的預言一向是誇張的)。
即便如此,相比國内廠商,特斯拉的訓練算力依然高出一個數量級,這也是爲何特斯拉可以訓練端到端大模型,而國内車企還停留在「預研」階段的緣故。
以上講了端到端和分模塊方案的區别、端到端的優缺點和門檻,再說回視頻表現,如果不知道 FSD 采用了端到端,想必本土頭部車企會把特斯拉打得找不着東了,或者像少年閏土那樣眼裏閃着光,将特斯拉當成叉子下的猹一樣紮去了。但是一旦冠以了端到端的名義,很多人就像中年的閏土見到魯迅那樣恭恭敬敬地喊起老爺來了。
其實大可不必,筆者看了幾個測試視頻,端到端 FSD 并沒有在體驗上超出國内頭部車企,結合與幾位行業内人士的交流,大家一緻認爲特斯拉目前并沒有從實踐上證明端到端真的 100% 确定是一個值得追随的路線。
而且,正如前文提到的,端到端的可解釋性差,萬一也存在天花闆呢,目前笃定端到端路線會超過分模塊方案還早了一點。
大模型也是這樣,周鴻祎最近不還說原以爲是個原子彈,現在才發現是個茶葉蛋嘛!
最穩妥的方式是一邊預研,一邊觀察看看 FSD 一年内的表現和進展,也可以在特斯拉即将舉行的 AI Day 上研究一下端到端大模型的技術細節。
不過,在 2023 年第四季度财報電話會議上,預測特斯拉将在今年第一季度舉辦 AI Day 的分析師問馬斯克,可不可以對 AI Day 抱有期待時,老馬直接表示:「我們發現,特斯拉舉辦 AI Day 以後,友商們會一幀幀地觀摩我們的 PPT,所以我們必須小心謹慎地披露我們的秘籍。」
現在就盼着馬斯克不要那麽小氣吧!