作爲商湯的汽車事業獨立品牌,商湯絕影此前的業務更多的是座艙裏面和視覺相關的産品。而在智駕方面,商湯絕影則于 2024 年初在哪吒 S 上落地全棧智駕方案。
作爲 AI 四小龍之一,商湯希望實現的能力不止于此。在 2024 年電動汽車百人會上,商湯絕影總裁王曉剛表示,基礎設施對于人工智能的下一步發展和突破是非常重要的基礎條件。
特斯拉今年 GPU 的規模會達到十萬塊,比國内各主機廠算力儲備高了兩個數量級。
而商湯目前已擁有 4 萬塊 GPU 和 8000P 的算力,今年算力預計還将增加一倍,能有力幫助主機廠推動大模型的發展。
在當天與雷峰網新智駕在内的多家媒體交流中,王曉剛表示,商湯對大模型的使用不僅限于外挂大模型,而是要對汽車的軟件架構進行重構,實現端側和雲側大模型的協同、高效的運行,包括各種數據的流轉。
" 之前商湯絕影的産品更多座艙裏面跟視覺相關的,今天就要突破視覺,突破單點功能演變成多模态座艙整體産品的體驗,會把我們的産品變厚,包括座艙跟駕駛的結合。"
這也是王曉剛認爲商湯絕影相較于今天市場上專注于智能座艙和智能駕駛産品的企業最大的優勢。
此外,王曉剛還就出海、艙駕融合等内容進行了分享,以下爲對話實錄,雷峰網《新智駕》進行了不改變原意的編輯。
Q:相比于友商,商湯在智駕方案方面有哪些優點和優勢?
王曉剛:自動駕駛經過幾年的發展,未來發展的思路和路線也在逐漸清晰。面向端到端的大模型爲基礎的自動駕駛解決方案是數據驅動,以視覺爲主。當前自動駕駛的系統裏面有很多模塊,其中隻有感知模塊是基于人工智能和神經網絡的,剩下其他模塊大量是靠手動編寫規則來實現的。
随着自動駕駛從高速走向城區,它的複雜程度大幅提升,通過人工編寫規則的方式成本非常高,效率比較低下,所以就走向端到端的,基于大模型的自動駕駛。
商湯本身在視覺方面擁有比較強的優勢,2022 年底,我們在業内第一個發布了端到端自動駕駛大模型 UniAD。接下來我們進一步提出了多模态大模型自動駕駛方案,這種方案除了感知傳感器,系統的信息外,還允許人機交互,通過自然語言作爲輸入,這樣我們的自動駕駛系統還可以跟人有這樣的交互。當自動駕駛時覺得旁邊的大車有壓迫感,如果想離它遠點,或者想超車,想跟着前面某一輛車,都可以通過語言模型進行交互。
另外,輸出的時候不但可以輸出感知,還可以輸出規控,還可以對自動駕駛做出的決策有解釋性。以前自動駕駛我們覺得它是一個黑盒子,現在基于大模型它就是有解釋性的。
實現大模型的推廣和應用要依托強大的基礎設施。商湯大裝置目前有 4 萬塊 GPU,8200P 算力,今年還會把整個算力翻一番。特斯拉提出來今年要有 10 萬塊 GPU,這個體量才能支撐智能化這方面的演進。相比來說,國内很多車廠和供應商跟特斯拉提出的目标還要差一到兩個數量級,在這塊商湯也有優勢。
Q:商湯大模型和其他家大模型有什麽區别?在智駕上的應用進展如何?
王曉剛:我們核心是要打造座艙大腦,其特點不是單一的模型。像基于我們的商量大語言模型的座艙大腦,不但可以和乘客、駕駛員産生互動,而且還可以做各種決策和任務規劃、推理,能夠調用車裏面各種 APP,包括各種硬件,真的實現座艙大腦。
另外一部分,我們推多模态大模型。座艙裏面我們之前做得比較多的是跟視覺相關的,DMS、OMS。接下來多模态大模型可以跟語音、自然語言結合,實際上是對 DMS、OMS 極大的拓展,能夠全方位地感知乘客需求,識别乘客在座艙裏任何場景下問的任何開放式的問題,它能夠回答問題的複雜程度都是極大的提升。
此外,我們還有内容生成,文生圖的秒畫,包括文生視頻。
駕駛方面,我們是業内最早推端到端大模型的,2022 年底就做了發布,今年 4 月份的車展,我們也會帶來基于 UniAD 端到端大模型的自動駕駛體驗。
另外,我們也基于視頻生成的技術,在去年 11 月的時候發布了視覺模型。這個模型可以生成各個攝像頭、傳感器在不同視角下的視頻,并且比較精準地去控制視頻生成裏面的各種要素,比如說車的左拐右轉,加減速,坡度,包括在各種交通标志,交通信号條件下,還有各種天氣情況下生成的視頻,且逼真度非常高。同時我們還可以比較精準地去控制這些視頻生成的條件,覆蓋更多複雜的場景。
基于這些視頻,我們可以用來訓練端到端的自動駕駛模型,包括測試,大幅提升訓練的效率。 這裏面我們也看到自動駕駛和座艙的融合。駕駛員在座艙裏面可以跟自動駕駛系統産生有效的互動,能夠給它發出指令,去改變自動駕駛的行爲。
我們對大模型的使用不僅僅限于外挂大模型這麽簡單,而是要對汽車的軟件架構進行重構,實現端側和雲側大模型的協同、高效的運行,包括各種數據的流轉。之前商湯絕影做的比較多座艙裏面跟視覺相關的,今天就要突破視覺,突破單點功能演變成多模态座艙整體産品的體驗,會把我們的産品變厚,包括座艙跟駕駛的結合。
Q:請談一下商湯近年來出海的情況,包括在推動出海國當地産業升級和促進經濟發展方面做了什麽樣積極的作用?
王曉剛:在商湯成立之初,我們自己的定位就是一家國際化的公司。在 2016 年、2017 年的時候,就積極地在海外拓展業務,包括日本、東南亞、中東等等,并和國外的這些大企業形成了比較緊密的合作。同時我們也積極地和當地一些科研機構、院校拓展我們這方面的合作。
2018 年,商湯推動了全球高校人工智能學術聯盟,包括當時的 MIT、悉尼大學、南洋理工都在裏面,主要是給大家建立一個在人工智能學術領域裏自由交流和合作的空間。另外我們在新加坡也跟當地的高校成立聯合實驗室,有上百個人工智能的研究員、科學家,産出也非常好。
Q:商湯絕影是否有獨立融資的計劃?
王曉剛:智能汽車是商湯非常重要的一個闆塊。商湯作爲一個人工智能平台性的公司,汽車智能化不斷給我們提供創新的源動力。所以這方面我們一定會持續加大投入,推動商湯智能汽車業務的發展。至于絕影,我們從 2022 年開始有這樣獨立的品牌在,後面我們一定會想辦法讓它做大做強。
Q:艙駕融合對于造車成本,以及算力要求比較大,如果朝着這個方向發展會如何影響汽車整個産業鏈的變化和發展?
王曉剛:艙駕融合可能有兩種不同思路:
一種思路是把兩個域的功能實現在一顆芯片上,有機會降低 20% 的硬件成本,所以這是一個追求性價比的思路,能夠積極地推廣。
另一個思路,也有高端一些的,比如說上千 T 的算力。通過大算力的芯片就可以支撐駕駛跟座艙的大模型,而且在一顆芯片上駕駛的各種傳感器跟艙内的傳感器數據是連通的,延遲非常,能實現非常好的産品體驗。
這兩個思路都是有的,也不太一樣,這都是行業裏面非常重要的發展契機。對商湯絕影來說,我們同時具有駕駛跟座艙這兩塊業務,進行艙駕融合,無論是從基礎軟件層面,還是在産品層面,都有比較天然的優勢,我們也對行業這方面的發展趨勢非常期待。