圖片來源 @視覺中國
文 | 電車通
2024 年 2 月 16 日,OpenAI 宣布推出生成式人工智能模型 Sora,外界認爲,這是 AI 視頻生成的全新裏程碑時刻。
僅需隻言片語,Sora 就可以給你輸出一段最長 60 秒的視頻,并且能夠全程保持高度的流暢性與穩定性,實現了對 Runway、Stable Video、Pika 等生成式 AI 的超越。值得一提的是,Sora 還能夠根據靜态圖像擴展成一段視頻或補充缺失的動态幀。
這幾天,整個世界都在圍繞着 AI 旋轉,更先進的生成式 AI 出現,有人歡喜有人憂。
OpenAI 将 Sora 定位爲模拟世界的視頻生成模型,它的特性包含精确理解文本命令,生成長達 60 秒的高質量視頻、模拟真實世界的物理規則,比如光影反射、運動方式、物理效果等、能夠在單個視頻當中生成同一對象的多個鏡頭,并且保持對象外觀的高度一緻。
這就意味着 AI 生成的視頻距離「以假亂真」又近了一步。
另外,谷歌還宣布了下一代大模型 Gemini 1.5 Pro,将上下文窗口長度擴展到 100 萬個 tokens,意味着它可以在短時間一次性處理巨量信息,比如 11 小時音頻、一小時視頻、超過 3 萬行代碼,又或者是超 70 萬個單詞。生成式 AI 在進步,AI 大模型的學習能力同樣在突飛猛進。
真賦能也好,蹭熱度也罷,一時間整個行業都在圍着 AI 轉,也在開始認真思考,更先進的 AI 技術能夠爲他們帶來什麽不一樣的應用場景。
站在汽車行業的角度,Sora 等更超前的大模型,好像又有一些别樣的玩法。
視頻全靠「算」,車企的宣發費用全省了?
不久前,深藍汽車更新了一條用 AI 生成的 G318 新車視頻,視頻中羅列了一系列 AI「想象中」的 G318,表示将借助 Sora 的能力,「拍攝」一段 G318 的新車視頻,并抛出一個疑問—— AI 真的能拍出 G318 的美嗎?
能不能「拍」出來暫且不得而知,截至本文發布時,深藍汽車還未公布 Sora 眼中的 G318 究竟如何。但放眼汽車行業,嘗試用大模型生成汽車視頻的企業,确實屈指可數。小通還是很期待,AI 的生成質量,能否跟現有的專業拍攝工作流媲美。
車企的宣發工作十分頻繁,爲了造勢吸引流量,測試車都不惜拿出來曝光。以深藍 G318 爲例,正式預熱之前,官方已經發布多條曝光視頻。不過這款車型已經通過工信部公示,距離上市不會太遠。
宣發視頻不像簡單的海報宣傳,涉及拍攝和動畫制作等領域,品牌方還需要外包給專業的團隊來完成。一段視頻從前期拍攝到後期合成處理,周期長,外包制作的成本也不低。但爲了呈現盡可能好的「官方」效果,這些是車企宣發必須付出的成本。
如果能夠憑借 Sora 的能力和想象力打造一段媲美實拍的宣發視頻,那麽 AI 可以說是對現有工作流的一種「打壓」了。僅靠文字和圖片,Sora 就能生成一段可用的宣發視頻,省去一大筆外包費用,還縮短了物料交付的時間,我們似乎通過 Sora 看到了 AI 視頻商用化的可能性。
當然,或許以後車企的新車官圖,都可以用 AI 來解決了,場景合成效果可以做得更逼真,還省去了前期拍攝和後期的成本。
但問題就在于,Sora 生成的視頻并非完美,無法準确判斷常見的物理運動軌迹,主體與周圍物體之間的比例還有提升空間,物體運鏡連貫性有待提高。總體而言,Sora 生成的視頻确實足夠流暢逼真,但以現在的水平還無法完全取代專業團隊的生産流程。
生産流的工作或許有一天會被 AI 取代,但人類的創意潛力是無窮的,這是人類與 AI 區别最大的地方。
不過,小通認爲 Sora 的想象力不應該止步于藝術創作當中。作爲真正意義上的「世界模型」,Sora 認知世界的能力,在高階輔助駕駛以及未來的自動駕駛當中發揮更多作用。
智能汽車需要 Sora,但人類仍是「主角」
OpenAI 表示,Sora 在訓練當中表現出了與其它模型不同的湧現能力,通過湧現學習到了物品的時間與空間的相關性,以及與周圍世界互動的能力等。簡單來說,Sora 不單止是擁有感知世界運行法則的能力,它還可以判斷不同事物之間的關系,擁有發散思考的技能。
智能汽車當中的智能駕駛能力也是訓練 AI 模型得出的結果。當前汽車智能駕駛分爲感知、定位、決策、規劃、控制幾個模塊,每個部分緊密配合,最終實現精确的智能駕駛。智能駕駛的不同模塊,目前都需要單獨訓練,訓練量龐大,研發人員要通過不斷地「喂數據」優化叠代,所帶來的沉沒成本自然巨大。
360 董事長周鴻祎認爲,原來的自動駕駛技術過于強調感知層面,而沒有工作在認知層面。人在駕駛汽車的時候,很多判斷都是基于對這個世界的理解,比如對方的速度、會否發生碰撞、碰撞的嚴重性如何。這就是當前智能駕駛與真人司機之間的區别。
但 Sora 對世界的感知和交互能力,并不是單純的數據堆疊就能實現的。想要提高自動駕駛的研發和運行效率,人爲優化叠代是必須,更重要的還是要讓 AI 具備自主發散,縮短叠代周期,将交互能力賦能到現有的智駕模型當中,更接近人類的駕駛體驗或許就此誕生。
此外,支撐計算的算力芯片,光是智能座艙、智能駕駛就需要多塊單獨的高性能 SoC 支撐,集中化程度欠缺,整車成本也下不來。無論是算力平台還是模塊都趨向集中化和一體化,智能駕駛或許就不再分成多個模塊,而是将其當作一個整體。
再到智能底盤領域,有些車企開發出了路面預判能力,通過提前建模判斷路況,實時調整底盤工作狀态。當前的工作模式還是先建模後再決策,本身存在一定的時間和過程,有時候并不能夠像人類司機一樣判斷及時判斷。
這一切,有了 Sora 的加入之後,智駕技術和智能座艙就能夠跳出傳統的訓練模式。試想一下,如果 Sora 自己生成模拟現實世界的視頻,再用來訓練自動駕駛的能力,說不定比車企不斷收集道路數據和視頻訓練來得更快,而且 Sora 的交互能力還有機會影響到現有的自動駕駛模型。
AI「生米煮成熟飯」,挑戰與機遇并存
我們的想象力總會比 AI 更快一步,這就說明人類還無法完全被 AI 所替代。
現階段的 AI 在各行各業表現出了令人意外的能力,大模型的出現更爲企業提供了更多可能。不過我們對 AI 的态度或許不應該過于樂觀,AI 還沒走到最關鍵的商業化層面,很顯然人類仍然是這個世界絕對的「主角」。
對于汽車行業而言,機遇和挑戰并存,AI 的崛起爲車企帶來了降本增效的新突破口,但 AI 的潛力上限尚不可預知,當前的應用場景也不能代表 AI 的全部,想要完全利用,不是一件簡單的事。
就好比智能手機的影像傳感器,還沒被打磨完成,就已經被廠商抛棄,造成浪費。
同時,要支撐龐大的 AI 運算和數據積累,車企的投入完全看不到底,比如頭部廠商需要建立自己的數據中心。另外,先進大模型确實有利于汽車智能化發展,但這并不意味着車企能夠高枕無憂,在算法投入上,車企之間的智能駕駛開發程度上仍然存在明顯代查,模塊化的智駕技術還沒玩透,頭部的端到端等潛在新賽道更是難以跟上。
到最後,AI 變成了巨頭提升自身水平的「專屬武器」,前者的能力越強,很可能會拉大不同廠商之間的代際差别,使得汽車行業頭部化來得更猛烈。
無論如何,Sora 的潛力值得期待,不過這需要時間去發掘,誰也不敢保證 AI 接下來還能厲害到什麽地步。