Sora 證明馬斯克是對的，但特斯拉和人類可能都輸了

Sora 推出，馬斯克可能是心情最複雜的一個。不僅因爲其本人與 OpenAI 早年的糾葛，更因爲 Sora 實現的其實是特斯拉早幾年間一直在探索的方向。

2 月 18 日，馬斯克在科技主播 @Dr.KnowItAll 一條主題爲「OpenAI 的重磅炸彈證實了特斯拉的理論」的視頻下留言，稱「特斯拉已經能夠用精确物理原理制作真實世界視頻大約一年了」。

随後他在 X 上轉發了一條 2023 年的視頻，内容是特斯拉自動駕駛總監 Ashok Elluswamy 向外界介紹特斯拉如何用 AI 模拟真實世界駕駛。視頻中，AI 同時生成了七個不同角度的駕駛視頻，同時隻需要輸入「直行」或者「變道」這樣的指令，就能讓這七路視頻同步變化。

當然，這不意味着特斯拉早在一年前就掌握了 Sora 的技術，畢竟特斯拉的生成技術隻用于模拟車輛行駛，而 Sora 能夠處理的環境、場景、Prompt、物理規律等信息更加複雜，二者在難度上不可同日而語。

但特斯拉 AI 和 Sora 訓練的思路是一緻的：并不是訓練 AI 如何生成視頻，而是訓練 AI 理解和生成一個真實的場景或者世界，視頻隻是從某一個視角觀察這個場景的一段時空。這是兩家在現有業務上完全不同的公司，以彼此不同的方法來感知真實世界，而他們共同希望通向的，都是 AGI（通用人工智能），甚至更具體一些，就是具身智能和智能體。

理解這個觀點的核心，是理解 OpenAI 爲 Sora 賦予的使命，并不隻是替代視頻生成的創作者，而是将視頻生成作爲幫助 AI 理解真實世界的「模拟器」。如果說特斯拉數以百萬計的車輛仍然需要用「肉身」感受這個世界，那麽 Sora 則是單純依靠數據的輸入，建立起對世界的認知。

OpenAI 官網上，關于 Sora 的這篇研究論文名爲《把視頻生成模型作爲世界模拟器》。請注意「世界模拟器」（world simulators）這個關鍵詞，它是比生成視頻更關鍵的核心所在。

其實，早在特斯拉發布 FSD V12 的時候，這家以汽車爲主要消費産品的人工智能公司，就已經展示了類似的能力。

如何理解呢？首先，在 FSD V12 上，工程師删除了超過 30 萬行定義駕駛規則的代碼，系統将從被「投喂」的駕駛視頻中，學習如何應對真實的駕駛場景，而不是向過往那樣，按照寫好的規則，在某個特定場景下執行某一個具體的命令。

當然，和作爲「生成式模型」的 Sora 不同，FSD 的目标是實現自動駕駛，所以它并不需要真正生成一個具體的視頻。你可以想象成一個人（或者智能體）正在進行「防禦性駕駛」，基于過往經驗，可以對周圍環境中交通參與者的下一步移動趨勢做出判斷。這個判斷存在在頭腦裏就行了，不需要真正把它畫在紙上。因此，特斯拉的 FSD 也不需要把對未來的想象，生成爲一個真實視頻，并呈現在車輛的某一個屏幕上。

所以，現在有 OpenAI 和特斯拉兩家完全不同的公司，用截然不同的方式和路徑，實現「通過視頻生成，讓 AI 理解物理世界」這個相同的目标。

簡單了解一下 Sora 的運行邏輯：OpenAI 表示，Sora 結合了 Transformer 和 Diffusion 兩個過去幾年最重要的模型。ChatGPT、Gemini、LLaMA 等語言模式都是基于 Transformer 模型，它對詞語進行标記，并生成下一個單詞；Diffusion 模型則是「文生圖」的代表。

如果從「理解世界」的角度來審視 Sora，那麽某一幀圖像的畫質、畫面關系絕不是模型質量高低的評判标準，甚至官網釋出的 60 秒一鏡到底視頻也不是最核心的部分。重要的是這個生成的視頻可以被剪輯——在不同的機位下，無論是廣角、中景、近景、特寫，視頻中人物和背景的關系都保持着高度的「一緻性」。這才是 Sora 遙遙領先并接近真實的地方。

Sora 生成的視頻，在不同機位下呈現出的「一緻性」 | OpenAI 官網截圖

這一點和特斯拉在 FSD 上采取「純視覺」方案可以結合理解。簡單來說，99% 的車企或者智駕團隊都會在車輛上保留激光雷達，通過激光束的發射和接收，輔助計算周圍物體和車輛間的距離關系。但馬斯克不僅删除了 30 萬行代碼，還移除了雷達，隻依靠高清攝像頭采集和神經網絡學習來判斷距離關系。

無論是對特斯拉，還是對 OpenAI，這都是巨大的挑戰。畢竟輸入的畫面是 2D 的，但輸出的結果（無論是駕駛指令還是視頻）都需要基于對 3D 世界的深刻理解。

規模和質量是訓練模型的核心。特斯拉的數據來源于真實道路上，搭載了傳感器的車輛；而 OpenAI 的大量數據，從目前的公開信息來看，來源于網絡。在質量的維度，在《馬斯克傳》裏，作者艾薩克森寫道特斯拉通過和 Uber 合作，獲取「五星司機」的素材訓練 FSD；而從規模出發，奧特曼最近希望籌集萬億規模的資金，就是重注算力和規模的具體體現。

計算資源會直接影響生成的視頻質量，從左往右分别是 1 倍資源、4 倍資源、16 倍資源的生成效果 | 視頻播客截圖

最後，回到一開始的那個問題，爲什麽我們會認爲 Sora 和 FSD v12 是相似的？Sora 和 OpenAI 未來的想象空間又是什麽呢？它們和 AGI 又有什麽關系？

在馬斯克看來，當人工智能可以真正解決一個問題（物理、數學、化學等等）的時候，AGI 就到來了。不過還有另外一個理解維度，那就是具身智能。畢竟現實世界裏，并不是隻有數學公式和文字規則，擁有一定的智商的小貓小狗也可以依靠運動真實地和物理世界進行互動。

這點對于過去隻能輸入二維信息的 AI 來說很難做到。這也是爲什麽馬斯克看到 Sora 後在 X 上評價是「GG Humans」，在他看來 Sora 今天做到的，已經打破了過去的次元壁，而能理解真實世界并繼續學習，AI 也就有了更進一步影響真實世界的能力。

而就像特斯拉把這種生成能力用于訓練車輛，Sora 的價值也不僅僅是生成一個難以讓人區分真假的視頻，用作影視創作者的生産力工具（盡管這是一個非常困難且剛需的場景）。就像周鴻祎所說，「Sora 隻是小試牛刀，它展現的不僅僅是一個視頻制作的能力，而是大模型對真實世界有了理解和模拟之後，會帶來新的成果和突破。」