IT 之家 12 月 26 日消息,理想汽車今晚發布 " 理想 AI Talk 訪談實錄 02",理想汽車董事長兼 CEO 李想、智能駕駛研發副總裁郎鹹朋回答了關于智駕方面的部分問題。
IT 之家附 " 理想 AI Talk 訪談實錄 02" 部分重點内容如下:
張小珺:第一次試駕端到端是什麽樣的體驗?
郎鹹朋:我第一次試到這個車,從中關村開到了北京交通大學。開了幾公裏我就問旁邊的賈鵬,這是規則還是怎麽做的?怎麽我覺得開得這麽好呢?他說一句規則都沒寫,全都是系統按照咱們給它的數據自己訓練出來的。
咱們開車都知道,如果前面有個車刹停的話,它是要緩慢減速,甚至還再擡起一點刹車,有這樣非常舒适的刹車過程。這個過程我們團隊在規則階段寫了很長時間的代碼,都沒有達到一個完全拟人、解決所有場景的表現。
但我第一次試駕端到端,它的縱向就已經比之前試過所有的都要好的狀态,這才用了短短不到 15 天。所以我覺得那時候建立了一個信心,就是端到端一定能做出來。而且一旦它做出來,就一定會比現在所有的智能駕駛軟件都要好。
張小珺:既然端到端是靈丹妙藥,爲什麽去年不上?特斯拉去年就上了,你去年在幹嘛?
郎鹹朋:我們在等,等足夠的數據和算力,等到了我們就能上了。
端到端 VLM 大模型其實最終的本質是用人工智能來做自動駕駛。人工智能的三個要素:算法、數據和算力。這三個要素必須全都齊備。我們是今年是準備好了,所以我們能做這個事情。
理想 AD Max 車型的銷量,去年起來了之後到今年初(高質量訓練)數據量達到 10 億(公裏)左右規模,這是一個基礎。第二是算力基礎,今年初我們算力也到了 5EFLOPS。再加上第三步,就是端到端的一些預研也有一定成果,所以到今年初是天時地利人和,可以做這個事情了,去年我們還在補課的一個過程。
張小珺:爲什麽很多企業的端到端是兩個模型,而不是 One Model?
郎鹹朋:這個是算法和理念的問題。我們要做端到端時就給自己定了一個目标,一定要用純數據驅動的方式來做這件事情,而不是結合了之前的規則來做,所以說它的性能上限會非常高。
張小珺:爲什麽理想是端到端 + VLM,不像特斯拉隻用端到端?你們對自己的端到端不夠自信嗎?
郎鹹朋:不能這麽講,我們在做技術方案時充分參考了世界上所有的先進方案,但始終無法解決一個問題是,當一套自動駕駛或智能駕駛系統,它工作時如果遇到之前沒有見過的場景,應該怎麽處理?我們認爲就是端到端 + VLM,就是系統 1 + 系統 2 的方式,很好地模仿人類大腦的工作方式。
張小珺:特斯拉沒有用激光雷達,你們爲什麽要用?
李想:很多人不太理解說:爲什麽要保留激光雷達,還是爲了安全。是不是因爲你技術不好?不是,中國和美國是不一樣的,如果你經常在中國晚上夜路開車,你會看到有尾燈壞了的大貨車、甚至可能尾燈壞的大貨車會直接停在主路上,至少我們今天的攝像頭,能夠在深夜裏沒有光線下看到的距離,其實隻有 100 米出頭。
但是激光雷達,在沒有任何光線的情況下是可以看到 200 米的。這就可以幫助我們實現 130 公裏 / 小時的 AEB 自動緊急制動。那我覺得這個是非常重要的,因爲我們是個面向家庭的車,每個人生命安全都非常的重要,所以這是我們繼續保留激光雷達根本所在。而且後邊的車型仍然會保留。我相信如果馬斯克在中國,在深夜裏不同的高速開過車,他也會選擇把前面的一顆激光雷達保留下來。因爲特斯拉對于安全同樣地重視,隻是他要在這個環境裏來看到。
張小珺:理想激進的用隻有一個模型的端到端,其他車企還在用兩個模型,爲什麽?
李想:很多時候可能跟我們有一些比較好的外腦有關,像王興、陸奇博士,他們會給我們帶來很多啓發。有一次陸奇博士跟我們講,你們應該思考一下人是怎麽工作的?我覺得這個當時對我們幫助很大。
今年初我還逼着智駕團隊去美國,他們在不同的城市開 FSD V12。另一方面我們研究工作也在進行,那時已經在發端到端 + VLM 的各種研究論文了。回來以後我覺得要麽你做這個,要麽我們就不要再做自動駕駛了。今天你靠這些規則上來做的,跟請個供應商做出來的東西有啥區别?沒有啥區别。
我說服郎博他們很重要的一點,我說你們經常解決了一個 Corner Case(極端情況),又出現三個其他的 Corner Case。你們一輩子都在解決 Corner Case,解決不完。
張小珺:大家都說理想做智駕是投入最晚最慢的,你怎麽看?
郎鹹朋:2018 年 1 月我加入理想時,跟李想讨論過這個問題。什麽才是決定最終智能駕駛或自動駕駛實現的最關鍵因素?我們當時聊的就是數據。人才可以流動、算法可以提升、算力也非常重要,但是隻要有健康的資金、合理的資金使用也是能買得到的。
那麽最重要就是數據,數據它是買不到的,必須自己有這樣一個非常高質量、規模非常大的數據,才可以做好自動駕駛。所以我們要按照節奏來做自動駕駛,剛開始我們要先把車造好、把車賣好,然後積累更多的資金、人才和數據,到了一定時間點再大量投入,去達到更好的自動駕駛的效果。其實從現在結果上也是能看出這一點的:我們自動駕駛的節奏是非常好的。
張小珺:什麽時候理想意識到,智駕對于賣車是有幫助的?
郎鹹朋:從實際表現來看是從今年開始的,今年智能駕駛确實對于銷量有非常好的促進作用。我們 2 月 AD Max 的交付量占比隻到 20% 左右,然後到今年下半年超過 50% 了,這是實打實的業績。早期大家認爲自動駕駛是一個功能,它跟座椅加熱沒有大的區别,并沒有解決用戶日常出行的舒适性。直到現在我們用 AI 來做自動駕駛,端到端 + VLM 真正解放用戶長時間的駕駛疲勞。當我們能達到綜合 MPI(城市 + 高速綜合接管裏程)100 公裏、幾百公裏時,大家就真正願意爲自動駕駛買單了。
張小珺:理想提出有監督智能駕駛,跟自動駕駛 L1 到 L5 傳統分級有什麽區别?
郎鹹朋:這裏面其實體現我們對自動駕駛研發的思路差别。之前很多人認爲 L3 自動駕駛是 L2 輔助駕駛的延續,隻要把 L2 輔助駕駛的場景越做越多,總有一天能無限趨近于 L3,甚至可能就能夠做到 L3。
但在我們看來,L3 或者有監督智能駕駛,它并不是 L2 的延續,而是 L4 或者自動駕駛的先導程序。實際上我們是錨着未來的自動駕駛能力去研發、去成長和叠代的,而不是沿着過去一套用 L2 的思路,去做現在的自動駕駛。
張小珺:你說自動駕駛是能力、輔助駕駛是功能,兩者本質區别是什麽?
郎鹹朋:功能是預設條件,能力是應對所有條件。你不可能窮盡所有的預設。
功能的話,還是用上一代的這種軟件 1.0 方案來做自動駕駛。最大的問題是在研發之初,就要清晰地設定所有條件、所有邊界,以及最終确定性的結果。這在自動駕駛裏是非常困難的。
能力的話,是用人工智能的方式來做自動駕駛。當我們把自動駕駛當成能力來開發,從最本質思考人是怎麽學會開車的。最開始人去駕校學習,掌握基本駕駛技能再考試。考完掌握基本能力之後,作爲實習司機一邊實踐一邊提升能力,慢慢地成長爲老司機。我們系統 1 + 系統 2 的方案,讓自動駕駛系統擁有這種能力去叠代和成長,随着數據量的增長,它會慢慢地讓性能随之提升,這個就是大家經常說的規模效應。
張小珺:你們驗證了自動駕駛的規模效應嗎?
郎鹹朋:我們已經驗證出來了。這不是我們發明的,所有的大模型應用都符合這種規律,也就是說數據規模和數據質量的增長,會帶動性能的增長。而且性能增長是接近于線性的,這就是我們用大模型最本質的好處。
張小珺:有監督智能駕駛階段,理想交付給用戶的産品長什麽樣?
郎鹹朋:全場景的、一體化端到端産品。要想實現有監督智能駕駛,一個前提是實現車位到車位,也就是解決最前面一百米和最後面一百米。以前智駕是從幹道開始,現在可以從小區車位開始,然後包括園區道路、泊車、城市道路,還有高速和收費站 ETC 都會全部打通。
高速城市全場景升級端到端 + VLM,以及創新的 AI 推理可視化的交互,将在近期随 OTA 全量推送給所有的 AD Max 用戶。
張小珺:L3 什麽時候實現?
郎鹹朋:按照現在的端到端 + VLM 這套體系,能力繼續叠代的話,我們是有希望在 2025 年去實現 L3 的。
張小珺:面對李想年初對于智駕的發火,你的職業危機是什麽時候解除的?
郎鹹朋:我覺得到現在還沒解除,因爲還沒有做到極緻。我們的目标是今年綜合 MPI(城市 + 高速綜合接管裏程)做到 100 公裏接管一次的能力。這個接管不是安全接管,不是說你要撞車了才接管,是用戶覺得車開得不符合體驗、不舒服的接管。到明年、後年,我們會逐漸提升至 500 公裏、甚至 1000 公裏以上。慢慢讓大家對智駕越來越自信、越來越依賴。
張小珺:要實現這樣的目标,需要儲備多少算力和數據?
郎鹹朋:要達到 500 公裏的綜合 MPI(城市 + 高速綜合接管裏程),預計需要 2000 萬 Clips(視頻片段)的水平。如果 2000 萬 Clips 從不到 5% 的老司機去篩選,這裏隐含的數據量,要達到 50 億公裏甚至上百億公裏的水平。