作者 | 柴旭晨
編輯 | 周智宇
在外界印象中,理想的智駕一直是追趕者的狀态,但在 ALL IN 端到端後,理想竟然自信地說已經超過特斯拉了。
在 8 月 30 日的成都車展,理想汽車智駕團隊詳細發布了 " 端到端 +VLM" 方案,不同于國内同行的 " 分段式端到端 ",理想的方案是被稱爲 "OneModel" 的一張大網。
這是目前自動駕駛架構演進的最終形态,該階段不再有感知、決策規劃等模塊的明确劃分,從原始信号輸入到最終規劃軌迹的輸出,采用一個深度學習模型,完整無損地應用于自動駕駛。
在理想智駕研發副總裁郎鹹朋看來,死磕 " 最終版 " 的端到端,正是理想得以彎道超車的秘密。
" 過去的智駕方案,不管是輕圖還是無圖,底層技術架構都是有人爲設計成分的,如果想将一年四季各種情況都跑一遍,沒有一兩年時間是不可能實現。所以我們叠代了端到端 +VLM 技術架構 ",郎鹹朋認爲,該架構是 AI 自己生長的," 真正變成車自己在開 "。
不僅如此,理想開始打造 " 世界模型 " 來加速智駕 AI 的訓練," 世界模型可以生成、模拟場景,這是幾千萬個場景測試 ",理想智駕高級算法專家詹锟表示,這是實現智駕快速叠代最重要、且最必要的保證,并且 " 世界模型 " 還是将來碾壓端到端的存在。
" 它可以根據當前的環境預測未來,能推理出未來的場景。比如球滾到路中間,端到端隻會刹車,世界模型會想後面會不變還有小孩沖出來?它對世界有更宏觀綜合的判斷 "。詹锟表示,理想在上車端到端的同時,就已經預研下一代技術了。
因此郎鹹朋凡爾賽地表示," 我們跟特斯拉沒有太大差别,甚至更領先一點 "。
敢于與特斯拉 FSD 這個全球智駕标杆掰手腕,不僅在于理想雙系統架構的超前,更在于理想在新勢力當中領先的銷量和财力。郎鹹朋說真正做到端到端要看兩個能力," 有沒有足夠多的數據和充足的算力,因爲它是 AI 訓練 "。
他表示,爲了訓練好自家智駕系統,理想對數據質量要求極高,隻精選 3%" 老司機 " 數據喂給 AI,但在 80 萬車主基數下數據量已經足夠龐大;而爲了消化這些數據,理想到今年底要将算力提升至 8 億 EFLOPS," 這是一年 20 億人民币的花銷 "。
在郎鹹朋眼中,高階智駕是巨頭才能玩得起的遊戲," 未來到 L4 階段,數據和算力的增長都呈指數級,每年至少需要 10 億美金,一家企業的盈利和利潤不能支撐投入的話就很困難 "。
靠着端到端的初步上車,理想已經獲得了銷量的快速轉化。接下來它還要持續發力這個 " 頭号工程 ",這或許将是帶領它成爲比肩比亞迪、特斯拉的關鍵一環。
以下是華爾街見聞與理想智駕研發副總裁郎鹹朋、智駕高級算法專家詹锟的對話實錄(經編輯):
問:什麽才是真正的端到端?怎麽評價它是真的端到端?什麽樣的效果才是最好的?
詹锟:端到端是一種研發的範式,從最開始的輸入端到最後的輸出端,中間沒有其他過程,用一個模型完整實現。現在理想汽車是一體化 OneModel 端到端,通過直接傳感器輸入,模型推理完畢後直接給到軌迹規劃用來控車,這就是一體化端到端。
市面上還有一種端到端,是在中間分兩個模型,模型中間以一個信号做橋接,但我們認爲這不是真正的端到端,如果中間加了人爲的信息消化過程,可能效率不是那麽高或能力上限受到約束。
郎鹹朋:現在很多人都說自己是端到端模型,但是真正做端到端還是要看兩個能力:有沒有足夠多的數據和充足的算力。否則我覺得很難做出真正的端到端來,因爲它是 AI 訓練。
問:現在很多品牌提出自己是引領者,理想汽車也在說已經跻身智能駕駛第一梯隊,怎樣評價自家端到端的技術水平?
郎鹹朋:普通消費者不關注技術而是體驗,我們也不和誰比。
以前我們爲做城市 NOA 考慮過用高精地圖,但後續因爲體驗因素決定轉做無圖,但那時的無圖還是感知、規劃、分模塊的方案,裏面有大量的人工規則和實車測試。
先不說預算投入方面,時間上就非常困難,如果想将一年四季的各種情況都跑一遍,沒有一兩年時間是不可能實現的。所以我們又叠代到端到端 +VLM 技術架構,這是 AI 方案是自己長出來的。
之前輔助駕駛是系統輔助人來開,主體是人,但是到現在端到端 +VLM 階段後,我們認爲是變成車自己在開。訓練出完整模型之後,模型自己有能力開好這個車,我監督這個車哪裏不行或者有提示需要接管,但是主體一定是車,人作爲一種監督的輔助角色。
問:端到端的研發周期大概多久?
郎鹹朋:理想認真做端到端 +VLM 是從去年開始的,我們在研發階段是一個非常小而精的團隊,做無圖的時候已經在預研端到端,現在做端到端實際已經預研下一代技術了。當判斷條件已經成熟和初步驗證成功,會轉到量産階段。
問:端到端最早是特斯拉提出來的,我們是不是受到特斯拉的啓發?我們怎麽确定流程一定能跑通?
詹锟:端到端不是特斯拉第一個提出來的,2016 年英偉達就有一個模型提到了這個技術,但效果一般隻解決了特别簡單的場景,以當時算力和模型規模,大家認爲這條路是行不通的。到 2023 年,特斯拉在新 transformer 架構上增加了超大算力做出來之後,在往更有成長的方向上推進。
問:理想目前感受自己和特斯拉智駕的差距有多大?
郎鹹朋:去年那會過差半年,今年可能還會再小一點。從技術架構上,我們跟特斯拉沒有太大差别甚至更領先一點,因爲我們有 VLM,特斯拉隻有端到端。在中國的訓練算力和訓練數據上,至少從現在看我們是領先于它,因爲特斯拉在中國還需要算力部署。
另外我們也用上了世界模型,可以生成、模拟場景,這是幾千萬個場景測試,這是實現智駕快速叠代最重要、且最必要的保證。這種方式進行模型叠代比原來整車或者路試的方式要可靠得多,而且一年四季各種場景全都可以涵蓋。
詹锟:世界模型可以根據當前的環境去預測未來,能夠推理出未來的場景。比如,球滾到路中間,端到端隻會刹車,但世界模型會想是不是還會有小孩沖出來?它對世界有更宏觀綜合的判斷。其實 VLM 在我們系統上就是起到這個效果,當然我們現在模型規模還很小,能力是有限的。
問:前不久有人提出 "500 億做不好智駕 " 的觀點,理想對此有什麽看法?
郎鹹朋:關于 500 億,需要判斷是一次性投資還是長期投資,就像今天提到的我們每年都會有 10 億美金投資在智駕研發中,如果連續 10 年的話是超過 500 億。
端到端 +VLM 的技術架構是一個分水嶺,從這一代開始才是真正用 AI 的方式做。
之前我們還是在用傳統方式做智駕,所有産品的最終效果,都是有 " 設計 " 在裏面,沒有設計到的場景可能就無法實現。不僅無法實現純粹的數據去驅動,人工工作量也大。
一體化的端到端模型,雖然在模型的結構、模型的訓練方式上有難度,但最大的好處是,我們給出數據訓練模型,模型輸出結果,這樣自然而然的 AI 訓練過程。
從我們自己的端到端模型來看,隻需要告訴它要做和 " 老司機 " 一樣的駕駛體驗,輸入所有理想車主中 " 老司機 " 的駕駛數據,它就給你結果。數據篩選是非常嚴格的,在當時 80 萬車主中,隻有 3% 才是真正的老司機的數據。
在有了這個前提之後,接下來做研發的核心競争,看是否有更多更好的數據和與之配套的算力去訓練模型。而算力和數據的獲取,需要看花多少錢、投入多少資源去做。而這其中有些東西是用錢買不到的,比如訓練數據、訓練裏程,各家車企有自己的資源,相互之間并不會互通共享。
另一個需要投資的是算力,我們現在 5.39 億 EFLOPS 的算力,到今年年底預計 8 億 EFLOPS,這是一年 20 億人民币的花銷。
未來進入到 L4 階段,每年數據和算力都呈指數級增長,這也就意味着每年至少需要 10 億美金。5 年之後,它需要持續叠代,在這樣的量級下,一家企業的盈利和利潤不能支撐投入的話,是很困難的。
所以,現在并不需要關注投入多少億做自動駕駛,而是從本質上出發,是否有充分的算力和數據支持,再看看需要投入多少錢。
問:過去幾年智駕的技術戰快速變化經曆了幾次大叠代,巨變還會發生嗎?
郎鹹朋:端到端 +VLM 雙系統是模拟人類思考認知的架構,因爲我們做 AI 最終希望可以實現拟人或者類人。目前的 AI 框架是非常合理的,很多企業也開始嘗試跟進。
雙系統理論,不僅可以用在自動駕駛上,也是未來 AI 甚至智能機器人的範式。自動駕駛可以說是一個輪式智能機器人,隻是工作範圍是道路。所以,我覺得是有一定的長期行爲力,但技術發展是無窮無盡的,我們會保持對先進技術的敏捷感知,如果有新的技術我們也會追蹤。
問:端到端量産交付之後能給銷量帶來多大的增量?
郎鹹朋:無圖 NOA 全量推送之後,近兩個月我們試駕翻了一倍。30 萬以上的車型 AD Max 占比達到 70%,原先 AD Pro 會多一些,L9 AD Max 甚至占比 90% 以上。
問:理想汽車對高階智駕有沒有收費的計劃?有什麽好的商業模式?
郎鹹朋:标配和免費都是理想從第一天開始進入智能駕駛就制定的策略," 有監督的自動駕駛 " 對所有 AD Max 的車主都是不收費的,它還能爲自動駕駛提供更多的車輛訓練裏程。因此交付量比較好且企業經營穩健,也有足夠的資源投入智駕研發。
詹锟:理想有非常豐富的數據,我們相信這些數據是能夠支持我們做好的優勢。所以我們選擇了挑戰更大、更困難的端到端一體化架構,它的上限很高,但缺點是訓練更難,包括數據配比和訓練方法需要去探索和挖掘,但我們還是毅然決然地選擇了難而正确的道路。