作者 | 陶然 編輯 | 魏曉
Sora 視頻模型的發布,幾乎複刻了一年半之前 GPT-3 初登場時的 AI 圈盛況:
突然出現,引起熱議,廣爲震驚。
北京時間 2 月 16 日,在沒有任何消息外洩、事先預告的情況下,OpenAI 在社交平台 X(原推特)發帖,首次對外公布了名爲 Sora 的文生視頻 AI 模型。
一句 "Introducing Sora, our text-to-video model(介紹一下 Sora,我們的文本轉視頻模型)",切入正題之簡短,比起宣發,更像是一則告知:是的,我們又掏出大的來了。
之後,便是對 Sora 模型的能力介紹:Sora 可以創建長達 60 秒的視頻,其中包含高度詳細的場景、複雜的攝像機運動以及充滿活力、情感的多個角色。
還附上了演示案例的對應 Prompt(提示詞):美麗、白雪皚皚的東京城很繁華。鏡頭穿過熙熙攘攘的城市街道,跟随幾個人享受美麗的雪天并在附近的攤位購物。美麗的櫻花花瓣随着雪花在風中飛舞。
對于 Sora,業界評價并不統一:
有人 100% 認可,也有人 120%、200% 認可。
360 創始人周鴻祎發文稱,Sora 意味着實現通用人工智能可能從 10 年縮短至 1 年,該模型展現的不僅是視頻制作的能力,還展現了大模型對真實世界有了理解和模拟之後,會帶來新的成果和突破。
英偉達人工智能研究院首席研究科學家 Jim Fan 将 Sora 稱作是視頻生成領域的 GPT-3 時刻:Sora 是一個 " 數據驅動的物理引擎 ",一個可學習的模拟器或 " 世界模型 "。
高強度網上沖浪且一向心直口快的馬斯克則直接打出 gg human(人類輸了) 。
暫且不去深究後續影響到底是積極還是消極,能給 AI、影視、社媒等一衆行業同步帶來颠覆性王炸、劃時代之感的,又是 OpenAI,總是 OpenAI。
像是一群工程師還在讨論如何進一步完善登月計劃,OpenAI 的團隊已經從火星傳回來一組自拍——他們總是領先一個版本,爲什麽?
前文英偉達 AI 研究院科學家 Jim Fan 對于 Sora 的評價,從技術層面來看很有參考性:他将 Sora 定義爲物理引擎和世界模型。傳統意義上的視頻畫面是二維,而人們身處的物理世界是三維的。
這成爲了 AI 視頻模型設計之初的理念區别:在生成視頻的過程中,AI 的作用到底應該是将多段視頻片段拆分組合,還是應該作爲一個主體,構建并記錄一個虛拟的 AI 空間。
OpenAI 的選擇是後者。
其官網發布的 Sora 技術報告中,有一句話值得注意:" 我們的結果表明,發展能夠模拟物理世界動态的通用模拟器是一條充滿希望的途徑,具有前所未有的準确度和現實感。"
做一個粗淺的理解就是,Sora 不是編輯視頻,而是在生成視頻之前先建模一個空間,然後變成一個鏡頭記錄這個三維立體的虛拟空間。
立體建模能展現信息量遠遠多于平面圖,從設計思路上 OpenAI 就領先了一個維度,或者說提前了一個版本。
當然,更多的信息量意味着更龐大的數據流,在有限算力内跑出更好效果、在保證效果的前提下盡量節約算力,本質上是同一個問題:AI 計算效率。
但對于 OpenAI 來說,這些問題都有經驗可循——從 ChatGPT 到 GPT-4 等等項目的技術積累,成爲 OpenAI 構建 Sora 模型的良好地基。
受大語言模型成功案例啓發,OpenAI 在探索視頻模型時就在思考 " 如何獲得類似的好處 ":大模型運轉期間,token(詞彙單元)作爲自然語言處理任務中的最小文本單位,承載着輸入信息的作用,幫助模型對文本進行處理和理解。ChatGPT 将代碼、數學以及各種不同的自然語言一并拆分爲 token,再交由模型對 token 進行處理和理解,并能夠通過學習 token 之間的關系來獲取更多的語義信息。
同理,在視頻生成模型中,OpenAI 也創造了與 token 對應的數據單位 "Patch"(圖像單元),将圖形語言轉化爲對應格式的 Patch 進行計算,在保證模型擴展性的同時,大幅提升單位算力内的運算效率。
而在模型的前端,OpenAI 同樣用上了自己在 GPT 系列模型的成果:
和文本對話類似,訓練文生視頻的過程中,除了需要視頻素材案例之外,同樣需要大量對應的文字說明。OpenAI 采用了最初在 DALL · E 3 中提出的 " 重新加标題 " 模式,用具備高度描述性的标題生成器爲訓練集中的視頻素材生成文字說明。生成結果也證明了,在制作期間爲素材添加額外的說明,可以提高包括準确性在内的整體視頻質量。
此外,仿照 DALL · E 3 的做法,OpenAI 還另外使用 GPT 對用戶輸入的簡短提示詞進行了更便于 AI 理解的擴寫,把用戶輸入的文字擴充成更長、更詳盡的說明,再交由視頻生成模型進行處理。
對于 OpenAI 這類技術驅動型公司來說,經驗和技術的積累都是加速度,有迹可循的成功經驗疊加團隊自身對 AI 概念領先理解,讓 OpenAI 總是能踩在自己的肩膀向上,或是推着自己加速向前。
比技術領先更可怕或者說更值得友商在意的,是這種領先往往會成爲慣性,一步快步步快。指望靠加速追趕和對标與 OpenAI 看齊,在配套設施愈發成熟的階段,難度恐怕隻會不降反增。真正的增量,仍在頂層設計的創新之中。
所以,與其說是 AI 擠占了人的創新空間,倒不如說是 AI 拉高了有效創新的門檻:設計 AI,或者能超越 AI 創意的設計,才是大模型時代的有效增量