本文摘自《雲栖戰略參考》,這本刊物由阿裏雲與钛媒體聯合策劃。目的是爲了把各個行業先行者的技術探索、業務實踐呈現出來,與思考同樣問題的 " 數字先行者 " 共同探讨、碰撞,希望這些内容能讓你有所啓發。
長安汽車将于 2024 年三季度上市發布首款搭載長安大模型的長安啓源 E07,而這一切的起源可以追溯到三年前—— 2021 年 8 月,在長安汽車科技生态戰略大會上,長安汽車董事長朱華榮提出了 " 新汽車新生态 " 戰略,新汽車開始寫入長安汽車的未來版圖。
作爲長安汽車推進智能化戰略 - 北鬥天樞計劃的戰略承載體,重慶長安科技有限責任公司 ( 以下簡稱 " 長安科 技 " ) 着力于構建全新科技主體,以成爲全球一流的智能電動數字解決方案商爲願景,通過以新技術使能新汽車,以新汽車繁榮新生态,助力長安汽車成爲智能電動汽車産業鏈鏈長和原創技術策源地,向智能低碳出行科 技公司轉型。
圍繞長安汽車 " 創新創業 6.0" 計劃,建立新汽車、新生态,打造一流産品體驗、一流核心技術、一流組織團隊。自 2021 年成立的長安科技 AI Lab 聚焦研究 " 下一跳 " 的 AI 關鍵核心技術,對内沉澱 AI 關鍵核心技術和基礎能力。AI Lab 通過三年建設,逐步擴大朋友圈,建立軟件類新技術研究體系,持續産出新技術。改變合作模式,重新定位合作關系,構建長安軟件全球朋友圈,實現合作的國際化。
基于 AI Lab,長安汽車與國内多所頂尖高校相繼開展了人工智能合作項目,并在大模型成爲技術新趨勢後,與阿裏雲在大模型領域展開了深度合作。
新汽車戰略與大模型初探
成立于 2021 年的長安科技 AI Lab,承載着長安汽車新汽車戰略轉型的 AI 科研目标,早期重點研究支撐核心算法的基本能力,構建核心認知、感知等基礎能力團隊。同時選擇最成熟的領域進行産品孵化。與業界共建生态圈。
AI 汽車空調就是在此背景下長安科技 AI Lab 與國内高校開展的一個合作項目。在車内使用空調往往不需要考慮太多因素,但如果要在這一場景中爲空調加入感知能力和認知能力,讓車載空調變成一台智能空調,就需要考慮諸多因素。
智能空調是行業内首次提出的空調開關、溫度設置、風量設置、吹風模式設置、内外循環模式設置的自動化,能滿足 50% 以上用戶的需求,進一步解放用戶的雙手。同時技術輸出至場景大腦模型,對原有算法進行改進,指标有顯著提升。基于安卓端的 PyTorch 應用部署,實現了 CD569 車機部署以及推薦并控制空調進行合理調整。
這是大模型在國内興起之前,長安科技 AI Lab 在人工智能領域進行的嘗試和探索。彼時,長安科技 AI Lab 已經在用人工智能技術做日志分析、知識提取等研究,并逐漸确立起了交互認知、決策認知、數據保障和數據安全四大研究方向。
随着技術的進一步發展,現在長安汽車的 AI 應用探索正在從語音大模型向多模态智能體 ( Agent ) 發展中,爲了适應更多汽車行駛的真實場景,長安科技 AI Lab 實驗室正基于智能空調升級開發等同于人類智力的基于大模型多感知 + 任務執行的高度智能交互多模态研究,實現自成長自閉環的座艙環境自适應智能空調。
但一個關鍵問題仍有待解決——究竟應該爲團隊制定一條怎樣的技術路線 ? 長安科技 AI Lab 副主任謝樂成回憶說," 我們當時基于 BERT 做認知方面的模型推理還很困難,用到自動駕駛上也有不小的偏差,在其他技術方向上也做了不少嘗試做突破,直到 ChatGPT 的出現,爲我們指明了技術路線。"
ChatGPT 正式發布時,背後基于的是 GPT-3.5 大模型,GPT-3.5 是 OpenAI 訓練出的預訓練大語言模型,參數量上千億,是一個經過驗證并行之有效的人工智能技術路線,正是看到這一技術的價值所在,謝樂成和他的團隊快速聚焦,開始基于語音大模型構建垂直領域大模型,并實現座艙智能控制、智能交互等。
經過綜合評估後,長安科技 AI Lab 更傾向于基于市面上成熟的基礎通用大模型研發自己的汽車垂域大模型。同時,由于要适應雲端、車端不同場景下對不同模型大小的需求以及可升級性考慮,長安科技 AI Lab 更多考慮的是開源大模型。早期是在 Meta 開源 LLaMA 後,基于 LLaMA 進行了大模型技術探索,随着國内一些主流大模型陸續開源,開始基于國内開源大模型做技術測試。阿裏雲是國内開源大模型之一,于 2023 年 4 月對外發布了通義千問大模型,同年 8 月在魔搭社區上線了 Qwen-7B 和 Qwen-7B-Chat 兩個開源大模型,9 月 Qwen-14B 及其對話模型 Qwen-14B-Chat 也正式開源。當時,Qwen-14B 在多個權威評測中超越同等規模模型,部分指标甚至接近 Llama2-70B。
基于開源模型研發汽車垂域大模型和功能智能體,從體驗效果、開源生态、可二次開發、支持全系列以及工具鏈開放程度幾個維度綜合評估後,其中阿裏開源生态處于世界頭部位置,長安科技 AI Lab 與通義系列大模型的緣分也由此開始。
大模型實踐的長安之路
長安汽車的大模型技術策略,主要是構建長安包融性全球座艙交互 ( 星海 ) 大模型架構體系,以交互 ( 星海 ) 大模型爲基礎實現與車輛、環境、人強交互的車輛環境交互,同時引入生态合作夥伴的信源、智能體等。内部利用車端自有多輸入源的車輛環境交互大模型實現 EDC 的強應用類的語音、導航、多媒體等場景;外部構建生态環境交互大模型爲生态集成調度集成合作夥伴的多智能體和信源集成。
在工程化部署上來說,大模型端雲協同的體系,恰好符合汽車智能化發展路徑下的技術需要。
" 行車過程中總會遇到網絡狀況不好的時候,當網絡狀況不好時,就容易出現延時、甚至中斷,這會影響雲側大模型的整體使用體驗,所以我們很早就在研究端側 AI 算法,通過端側 AI 算法去實現汽車的智能控制。" 謝樂成表示。
基于這樣的思路,長安汽車構建起了基于車機側 AI 算力,探索将 1.8B 大模型、拒識模型、分發模型、車控模型、TTS 模型等在端側進行部署,将通用基座模型、業務智能體、外部生态插件等在雲側進行部署,打造端雲一體化高效協同體系。以解決據識、分發、快速控制、隐私安全等能力。
針對這一架構下的大模型應用,作爲阿裏雲一直以來的核心客戶,阿裏雲也派出了大模型團隊和架構師團隊與長安汽車進行了多輪深入探讨,爲長安汽車提供了不少建議和支撐。
針對智能座艙這一典型應用場景,雙方團隊一緻認爲端雲協同是一個必然趨勢。盡管現在端側部分算力還無法承載超大尺寸的大模型,智能座艙中的核心場景應用算法訓練和推理依然需要依賴雲端算力,但無論是基于對安全考慮,還是對實時性的考慮,端側大模型會是諸如智能語音交互和智能控制場景下的一個重要能力補充, 大模型向車端進行部署也是未來的方向。
阿裏雲在大模型體系上既有 Qwen-plus、Qwen- Max 這樣的雲上大模型,也有 Qwen-7B、Qwen- 1.8B 等适用于端側的大模型,雲側大模型用于通用能力的支撐,端側大模型可以在端側本地運行,無需網絡連接,具有更快的響應速度。
也正是基于這一考慮,在 Qwen1.5 系列開源模型發布後,長安科技 AI Lab 嘗試将其中參數規模最小的 Qwen1.5-0.5B-Chat 大模型作爲端側大模型在長安汽車上進行部署,探索端側大模型爲智能汽車帶來的可能性。
而在模型策略上,長安汽車則選擇以大訓小,大小結合。Gartner 技術成熟度曲線指出,一項技術在剛出現時,往往會被寄予過高的期望。謝樂成和他的團隊接觸大模型後,希望它能直接應用到新汽車座艙的智能控制系統中。
但大模型依然存在模型生成的内容與事實或用戶輸入不一緻的幻覺問題。謝樂成印象深刻的是早期一次夜間測試環境,由于不确定測試車輛上的大模型是否有大燈調節功能,他嘗試通過語音指令讓大模型将汽車大燈調高一些,這時,大模型直接控制車機關閉了汽車的近光燈。
對汽車的智能控制系統而言,需要精準理解人的意圖并精準提供内容或執行操作,幻覺問題雖然是小概率事件,但在操作中仍然難以接受。長安科技 AI Lab 也基于當下大模型能力對其算法策略進行了調整,将雲側大模型作爲智能控制系統的 " 兜底 " 技術。
例如,在駕駛場景,當駕駛員對車載空調發出指令 " 将空調開大點 " 時,由于傳統智能語音系統無法理解 " 開大 " 該如何定義,在将大模型接入後,就可以先通過大模型判斷用戶發出的這個指令是否有歧義,如果有歧義,就可以與駕駛員進行再次确認—— " 是否需要 将空調的風量開大一些 " 或 " 是否需要将空調溫度調低一些 ",得到更明确的指令後,再通過端側模型進行控制。
而具體到大模型的選型,在 Qwen1.5 發布四個月後,阿裏雲将開源大模型的版本升級到 Qwen2,長安科技便開始将 Qwen2-72B-Instruct 用到自己的大模型體系中。相比 Qwen1.5,Qwen2 實現了整體性能的代際飛躍,在數學,以及代碼、邏輯推理、多語言能力上都取得了明顯的提升。在各大基準測試中,Qwen2- 72B 一舉斬獲了十幾項世界冠軍,其性能大幅超越了著名的開源模型 Llama3-70B、Mixtral-8x22B。也正是因爲在回答問題的準确度上的明顯優勢,通義大模型通過了謝樂成團隊大範圍的選型考驗。除了大模型的升級,長安科技也聯合阿裏雲大模型團隊針對幻覺問題進行了多次聯合技術調試,針對汽車座艙應用場景對大模型鏈路進行了一系列優化,進一步提升了大模型的理解 準确性。
與此同時,長安汽車通過使用大模型經過知識蒸餾後的小尺寸 " 大模型 ",将部署在車端,這種策略也能大大提升車端運行大模型的叠代效率和響應速度。
由此,長安科技 AI Lab 一方面解決了大模型應用中的幻覺問題,提高了交互和控制的準确性,同時也基于端側大模型降低了響應時延,提升了智能汽車的實際用戶體驗。
共創汽車産業的智能未來
2024 年 4 月 23 日,阿裏雲 AI 智領者峰會西安站上,謝樂成正式對外展示了長安科技 AI Lab 在汽車大模型領域的一系列重磅成果。
具體而言,長安科技 AI Lab 如今已經将大模型應用到了汽車的 " 智能交互 " 和 " 智能控制 " 兩大場景,研發出了六大核心智能體——汽車專業問答智能體、通用 + 金融專業增強智能體、多模态可見即可說智能體、汽車場景語音編排智能體、複雜意圖理解智能體、多模态智能推薦智能體。
所謂智能體 ( Agent ) ,是指擁有感知、推理、決策、執行等多種能力的智能實體,它以大模型爲核心驅動力,并通過記憶、規劃和工具等組件分别實現信息存儲、決策制定與反思總結、任務執行等功能,從而實現特定目标。
以智能座艙場景中應用頻率最高的汽車專業問答智能體爲例,長安科技團隊早期在基于阿裏雲 Qwen 開源大模型研發汽車專業問答智能體時,在問答響應實時性和敏感問題響應表現上不及預期,在與阿裏雲團隊深入交流後,長安科技一方面引入了在搜索響應實時 性更強的誇克搜索引擎,另一方面聯合阿裏雲團隊重構了長安科技汽車大模型的安全策略,通過阿裏雲内容安全産品提供圖片、視頻、語音、文字等多媒體内容風險檢測的能力,識别并屏蔽風險和敏感話題,提升内容質量并進一步改善智能體回答技巧性,改善平台秩序和用戶體驗,最後才有了長安科技現在的汽車專業問答智能體。
而另一個值得一提的是汽車場景語音編排智能體。謝樂成認爲,汽車場景語音編排智能體或将成爲改變用戶用車習慣,成爲智能汽車的殺手級應用。
全場景語音可編排是長安科技 AI Lab 早在 2022 年就提出的概念,當時還沒有大模型,業界更多是通過 " 拖拉拽 " 的方式來思考和構建這一功能,大模型出現後,基于大模型的理解和生成能力,結合智能體,能輕松實現各類能力模塊調度和最終場景生成。在長安汽車發布會上的介紹顯示,通過全場景可編排語音功能,基于長安汽車的原子化服務,幫助用戶基于自身需求快速定制多個服務組合的應用,車内車外均可用語音控制音樂、空調、車窗、後備廂等相關功能開閉甚至調用各類生态應用,讓用戶成爲車端場景定義的 " 設計師 "。
同時,長安科技内部一邊基于大模型進行技術研發,一邊也在不斷反思 : 大模型究竟還能帶來什麽 ?
長安科技最初是希望将盡可能多的控制能力接入到大模型中,如今,其對大模型的能力有了新的理解——大模型的理解能力和交互能力是它最基礎的能力,而大模型爲汽車産業帶來的變革将不止于智能座艙,生态接入将會是接下來汽車大模型又一關鍵戰場。
在互聯網和移動互聯網時代,重塑了人類生活方式的應用,如何借大模型之力把這些應用接入到智能汽車中,提升智能汽車的使用體驗,是長安科技現在最關注的問題。在生态接入方面,長安科技正在與阿裏雲等團隊進行進一步溝通,一起探讨如何借大模型之力将應用生态接入到的汽車中。
以上長安科技基于大模型研發的這些智能體,以及随着大模型一并接入到汽車上的應用生态,均有望出現在長安汽車今年第三季度即将發布的長安啓源 E07 上。
謝樂成堅信," 大模型上車才是檢驗汽車廠商服務化是否在裸泳的标準。" 而長安啓源 E07 的發布,也将成爲汽車産業進入大模型時代的一個全新起點。