自 2022 年底 ChatGPT 橫空出世之後,大模型的熱鬧一直喧嚣到現在。互聯網巨頭、ICT 巨擘、雲服務商、新創企業在這個賽道裏打得難解難分之際,中國車企自研的大模型也開始陸續上車了。
去年 11 月的智界 S7 發布會上,華爲盤古大模型正式上車,将大模型接入智慧助手小藝,展示了 " 私人用車顧問 " 的能力。12 月份,理想汽車向 L7/8/9 用戶推送 OTA 5.0,MindGPT 正式開啓内測,主打助手功能,覆蓋出行、用車、娛樂和知識百科四大場景。12 月底的問界 M9 發布會上,餘承東展示了盤古大模型可在實時觀影的同時進行 " 百科問答 " 的能力,最近一次的大模型秀肌肉是今年 1 月份的比亞迪夢想日,比亞迪以旅遊攻略的生成爲例秀了一把自研大模型的實力。
圖片來源:理想汽車
也許是車企宣傳不得當,又或許是消費者期望過高,這些大模型最終并沒有帶給用戶 "wow" 一般的感覺。" 供需錯位 " 的背後,既有來自用戶體驗的表層原因,也有來自技術的深層原因。
一、體驗落差來自哪兒?
ChatGPT 問世之後,正如将之比作人工智能領域 iPhone 時刻的黃仁勳(英偉達創始人、CEO)一樣,很多人對 LLM 大語言模型、生成式 AI 萌發了極大的熱情,甚至有人以宗教般的狂熱喊出了 " 矽基文明終将取代碳基文明 " 的口号。這種情緒是可以理解的,經濟發展緩慢,陷入存量競争的現代人對下一次技術革命抱持熱切的期盼,實屬理所當然。
隻不過,随着 ChatGPT 問世的時間越拉越遠,GPT 大模型帶給人的新奇感變得越來越淡了。越來越多的人覺得,GPT 的發展似乎與自己的工作和生活并無太大關聯。
他們的感覺是對的,背後的理由卻并非 " 大模型都是很好很好的,可我偏偏不喜歡 ",也不是因爲大部分人對新技術不敏感,而在于GPT 目前能 " 超預期 " 發揮用武之地的設計場景本就與你我無關。
圖片來源:麥肯錫
GPT 有智能助手 / 情感陪伴、虛拟專家、内容生成、代碼開發和自動化任務五大應用場景,除卻處于發展早期的自動化任務,在其它應用場景裏," 超預期 " 發揮作用的是虛拟專家(幫科研人員讀論文)和代碼開發(幫程序員寫代碼),而恰恰寫代碼、讀論文并不适合汽車場景,于是,車載大模型的應用場景隻剩下智能助手 / 情感陪伴和内容生成了。
不知道大家有沒有發現,之前提到的三家車企在秀大模型的能力時,隻展示了智能助手和内容生成應用場景。但是,内容生成可以在桌面端通過明顯高出大部分本土車企大模型能力的 ChatGPT 或文心一言實現,沒有必要在耐心耗盡之前,花着自己的流量費,讓它在車上生成一張 " 漂浮在太空中的電動汽車 ";可以幫你打開車窗、調空調溫度的語音助手或者做行程攻略的出行助手,也不符合見慣了大場面的人們對 " 智能 " 的期待。
這些都不屬于 " 增值 " 體驗,大模型既然上車了,在汽車這麽一個封閉空間内,人們自然而然期盼着的是 " 情感陪伴 "、有來有回的互動和溫暖感,但現在,大模型給人的溫暖都不及 NOMI 多做了幾個表情那麽明顯。
最終造成的局面是,在汽車這個場景中,消費者本來希望的大模型是一個如沐春風的情感陪伴者,至少也得是一個知我懂我的 " 聊天機器人 ",結果迎來的卻是包括汽車知識、文旅知識在内的百科問答、專家系統這類冷冰冰的機器。車企提供的大模型和消費者的需求之間存在供需錯配,在巨大的心理落差之下,失望是在所難免的了。
那麽,是大模型的開發者不夠努力嗎?其實真不是,主要原因是消費者 " 想多了 " 或者說過于樂觀。要讓開發者們反思自己是不是努力了,他們一定會像對李佳琦因愛生恨的豬豬女孩那樣控訴:" 佳琦,我真的努力了。"
爲何說消費者過于樂觀,可以拆成兩個問題進行回答。第一,全球最先進的大模型發展到了什麽階段;第二,本土車企自研的大模型和 " 尖子生 " 的差距有多大?
二、大模型和人腦還差得遠
抛開立場先行的争論和似是而非的認知,我們可以從技術參數的維度,先客觀地看一看現在最先進的 GPT 大模型到底發展到了什麽階段。
GPT 的 " 智慧湧現 " 能力或性能取決于大模型的規模,規模衡量最爲關鍵的兩個指标是參數量和訓練語料(Token)數量。在大模型的結構設計足夠良好的前提下,可以認爲,參數量決定了大模型性能的 " 理論 " 上限和天花闆,訓練語料數量決定了大模型 " 實際 " 被訓練到了什麽程度。
爲了幫助大家理解這倆指标的意義,我們不妨拿人類大腦做一個不太嚴謹的類比。畢竟,人工智能領域一直把人類大腦作爲靈感的最大來源。
呱呱落地時,娃娃們的大腦已經有了良好的結構和足夠多的參數(100 萬億規模),但懵懂無知的幼崽要發展出情商、智商和各種各樣的 " 商 ",需要在各種各樣的環境中接受熏陶、捶打、激勵和訓練,塑形大腦的神經元、突觸、皮質,才能發展出在這個有時溫馨有時冷酷、時而友好時而叢林的社會中獨立生存和發展的能力。或者說,人腦的結構和參數量 " 先天 " 決定了這個娃娃理論上可以把潛能發揮到什麽程度,但具體發揮到什麽程度,取決于後天的訓練。
所以,要提升 GPT 的性能表現,主要有兩個手段:1. 推高大模型的參數規模;2. 訓練更多的數據(以 Token 爲單位)。我們可以拿 OpenAI 近幾年的 GPT 版本,說明一下參數規模和訓練數據規模對性能提升的作用。
2020 年,OpenAI 發布 GPT-3,這個模型的參數量爲 1750 億,訓練 Token 數量爲 3000 億,這個數據真實有效,來自 Andrej Karpathy(特斯拉 AI 和自動駕駛部門前負責人)在 2023 年微軟 Build 大會上的演講。在沒有改變模型結構和參數規模的前提下,OpenAI 向 GPT-3 投喂了更多的訓練語料,提高了模型的推理、語言理解及生成和基礎問題解決能力,并将版本号升級爲 GPT-3.5,在此基礎上推出了火爆全球的 ChatGPT。
2023 年推出的規模更大的 GPT-4,盡管 OpenAI 沒有公開它的參數規模和訓練數據量,但經過一輪又一輪的爆料,大緻可以認爲它的參數量高達 1.8 萬億,訓練 Token 數量爲 13 萬億。
圖片來源:微軟 Build 大會
和人腦相比,GPT-4 處于什麽樣的水平呢?據相關研究,人類大腦的神經元在 860 億左右,通過 100 萬億左右個突觸進行連接,對應到深度學習神經網絡的參數量,人類大腦的 " 參數 " 在 100 萬億左右。訓練 Token 在多少量級呢?有人做過估算,僅僅按單詞量,人類一生接受訓練的 Token 數量在幾百億到一千億左右,考慮各種各樣的圖像、感覺、情緒,Token 的數量會提升好多數量級。
且不說 LLM 大語言模型之後還會不會出現更能貼近人類智能的 " 新大模型 ",單單拿 GPT 和人腦進行比較,至少在目前這個階段,最頂尖的 GPT 和人腦且差得遠呢。
更何況,本土車企自研的大模型和 GPT-4 這種優等生的差距還很大。
三、車企大模型受限于開源
尖子生的成績亮出來了,下面要從參數量和訓練 Token 數量兩個維度,對頂尖的大模型和國内車企全棧自研的大模型進行一番比較了。
從數量上看,本土車企自研的大模型确實不少,但除了盤古大模型曾經公開過參數量(萬億級别)之外,沒有任何其它車企公開過自研大模型的參數數量。不過,理想汽車曾經在去年的家庭科技日上公開過訓練的 Token 數量 1.3 萬億,蔚來也曾經透露過 NOMI 接入的 GPT 大模型的 Token 數量達千億量級,所以,暫且不比參數量,單單比較訓練 Token 數量,理想和蔚來的 GPT 和 GPT-4 之間就存在數量級的差距。
其實,參數規模的差距也是巨大的,因爲絕大部分全棧自研的大模型都是基于開源大模型實現的,而開源大模型的參數規模普遍不高。
不止是國内,全球範圍内搞大模型都隻有這麽幾種方式:在開源大模型的基礎上做調優訓練、調用其它大模型的 API、在其它大模型的基礎上做應用、真正自研大模型。OpenAI 這些真正自研大模型的巨頭正在着力推動賽道上的玩家選取第二種和第三種方式,不過,鑒于 OpenAI 們開發并發布的 API 數量依然非常少,所以,大家要麽老老實實真正自研大模型,要麽在開源大模型的基礎上做訓練。
從曆史底蘊和技術積累上來說,國内真正自研大模型的車企恐怕不多。而且,即便要 " 真自研 " 大模型,也得從參數量小的模型開始做起,大家都是這麽走過來的。目前,月活量排在全國頭幾位的百川大模型,參數量是從 70 億、130 億、530 億慢慢做上去的。
值得一提的是,OpenAI 的 GPT-3 并沒有開源,開源的 GPT-2 的參數規模僅僅在 15 億左右,Meta 開源的 Llama 2 有 7B、13B、70B 三個版本,接受了 2 萬億個 Token 訓練,國内這邊,130 億參數的百川大模型 Baichuan-13B 選擇了開源,530 億參數的百川大模型 Baichuan-53B 選擇了閉源。可以認爲,基于開源大模型全棧自研的車載大模型的參數量都在百億級别,和 GPT-4 同樣有一兩個數量級的差距。
參數量、訓練 Token 量與業界尖子生均存在數量級的巨大差距,真正了解了這一點,就不會對本土車企自研的大模型抱有過高的期待了。
四、寫在最後
車載大模型的實際表現和消費者的心理預期産生了一定的落差,這主要是消費者的 " 樂觀 " 估計造成的。記得比爾 · 蓋茨曾經講過這麽一句話," 人們往往會高估未來一兩年内取得的成績,低估未來十年取得的進展。" 前半句大概率适用于 GPT 這種具有劃時代意義的新技術。
後半句呢?在比爾 · 蓋茨、黃仁勳這些大佬的眼中,GPT 大模型是數十年來最偉大的技術發明,大模型的未來是值得期待的。所以,對于車載大模型,我們不妨保持謹慎且樂觀的态度吧。