作 者丨孔海麗
編 輯丨張偉賢
圖 源丨圖蟲
視頻領域的 "GPT 時刻 " 也來了。
北京時間 2 月 16 日淩晨,OpenAI 推出了新的文生視頻模型 Sora,可以把簡短的文本描述轉換爲長達 60 秒的高清視頻,繼文本、圖片的革命之後,繼續颠覆視頻領域。
OpenAI 一口氣放出的 48 個示例視頻中,既有對現實世界的高度還原,也有動畫或科幻大片,角色與場景交互複雜、運動軌迹清晰、情感生動、細節逼真,一鏡到底和多機位統統不在話下。
更重要的是,Sora 初步實現了對真實世界的洞察與學習,已經能夠理解角色在物理世界中的存在方式并預判運行軌迹。
盡管目前 Sora 仍難以準确模拟複雜場景的物理特性,并且可能無法理解因果關系,比如人物吹蠟燭之後,燭火并未搖曳或熄滅。但這種趨勢已經擺上了台面,OpenAI 開辟了一個全新的賽道,并讓其他仍困在幾秒視頻時長的 AI 視頻模型創業公司,遭受降維式輾軋。一位 AI 大模型從業者感慨:" 要卷死一堆文生視頻公司了,秒殺…… "
一個能夠理解、感知、創造内容的 AI 視頻模型,将撕開無限可能。OpenAI 扔下的這枚重磅炸彈,商業落地場景非常豐富,戰栗的将不隻是影視行業,整個内容創作行業或都将被動搖。
在實際應用層,Sora 可能會爲短視頻創作、遊戲呈現效果、機器人具身智能、自動駕駛等,帶來巨大的影響與突破。假以時日,真實世界與視頻虛拟世界的區隔,或許也将被削弱,大洋彼岸已經在擔心 AI 視頻會影響總統大選了,正在采取行動應對 AI 生成的深度僞造。
對于 Sora 模型的意義,OpenAI 官方如此表述:" 能夠理解和模拟現實世界的模型的基礎,我們相信這一能力将是實現 AGI 的重要裏程碑 "。
上難度:理解真實世界
與現有文生視頻技術相比,OpenAI 的 Sora 幾乎将 AI 視頻的競争,從冷兵器時代推進到了現代化戰争階段,時長、效果、互動性,都秒殺現有技術。
視頻生成領域面對的一個重要挑戰就是,在生成的較長視頻中保持時空連貫性和一緻性。市面上現有的 AI 視頻産品,時長一旦超出幾秒,将無法正确呈現物體之間的互動關系,逐漸 " 離譜 "。
因爲 AI 對視頻的學習,依賴大量的訓練數據,如果訓練數據中沒有涵蓋某種特定的過渡效果或動作,AI 就很難學會如何在生成視頻時應用這些效果。也就是說,時長一旦變長,現有 AI 的能力就會 " 露餡 "。
更根本的原因在于,現有 AI 無法理解物理世界的運行法則,也就無法預測物體和角色在時間線上的運動軌迹。
但 OpenAI 做到了。Sora 直接将時長提升到了 60 秒,且效果高清,細節豐富。
OpenAI 官網呈現的一則 60 秒視頻顯示,女主與周圍的街道、人群、燈光、都非常清晰自然,完全沒有 AI 視頻常見的 " 掉幀 " 問題,甚至肢體動作、面部表情、水中倒影、墨鏡折射畫面都很連貫。
另一則視頻中,穿過東京郊區的火車車窗倒影,不僅顯示了車窗外掠過的建築,近距離經過的另一節車廂甚至加深了車内燈光、人物的折射清晰度,非常符合常理,并且流暢自然。
Sora 經常能夠爲短期和長期物體間的依賴關系建模。例如,在生成的視頻中,人物、動物和物體即使在被遮擋或離開畫面後,仍能被準确地保存和呈現。并且,Sora 能夠在單個樣本中生成同一角色的多個鏡頭,并在整個視頻中保持其外觀的一緻性。
一則太空人科幻視頻中,同時呈現了近景、遠景中的主角,被太空船内部場景切分開的人物鏡頭,分别處于凝視、行走、思考等不同的狀态,人物一緻、行爲連貫。
據 OpenAI 官網介紹,Sora 是一種擴散模型,相較其他模型,看起來具備了 " 理解 " 和 " 思考 " 能力。
與 AI 視頻明星創業公司 Runway 所使用的 Gen 模型相比,Sora 模型不僅了解用戶在提示中要求的内容,還了解這些角色在物理世界中的存在方式,能夠理解和模拟運動中的物理世界,能夠生成具有多個角色、特定類型的運動,以及主題和背景的準确細節的複雜場景。
與 GPT 模型類似,Sora 使用的是 transformer 架構,該架構對視頻的時空序列包和圖像潛在編碼進行操作,能夠主動填補視頻中的 " 缺失幀 ",從而看起來具備 " 預測性 ",使得 AI 視頻模型不再那麽 " 被動 "。
一位 AI 大模型從業人士對 21 世紀經濟報道記者表示,OpenAI 又一次改寫了遊戲規則,把文生視頻推高到了 " 理解真實世界 " 的維度。
這也正是世界模型的特點——讓機器能夠像人類一樣對真實世界有一個全面而準确的認知。世界模型不僅包括對事物的描述和分類,還包括對事物的關系、規律、原因和結果的理解和預測,從而進行推理和決策。
英偉達人工智能研究院 Jim Fan 表示:" 如果你還是把 Sora 當做 DALLE 那樣的生成式玩具,還是好好想想吧,這是一個數據驅動的物理引擎。" 有技術人員告訴 21 世紀經濟報道記者,Jim Fan 的言外之意在于,不能忽略 Sora 所折射的 " 世界模型 " 的更進一步—— AI 已經可以讀懂物理規律。
随着訓練的繼續推進,AGI 的實現或許不再是紙上談兵。
打擊力:颠覆現實世界
OpenAI 推出 Sora 之後,互聯網世界除了感歎,還有一片哀嚎。
在 OpenAI 的推文下面,不少評論打出 "gg 皮克斯 "、"gg 好萊塢 "(注:gg 是競技遊戲禮貌用語,good game 的縮寫,用于表達 " 打得好,我認輸 "),馬斯克更是在 X 上發表評論,稱 "gg 人類 "。
有不少網友感慨自己 " 要失業了 ",視頻行業将被徹底颠覆。
有來自電影制作行業的從業人士告訴 21 世紀經濟報道記者,如果 Sora 繼續進化下去,取代一部分傳統視頻制作方式是必然的,就像 AI 繪畫取代畫師、設計師一樣,這是趨勢。
" 短視頻、概念視頻、廣告、微短劇、甚至是長視頻裏,都會大量使用 AI 生成視頻。"該人士表示:" 不過傳統影視劇該怎麽拍還得拍。"
觀點普遍認爲,AI 視頻模型将改變電影工業的生産方式,雖然不能完全取代現有人力,但将會成爲新的生産工具,影視行業從業人士需要盡快把工具 " 爲我所用 "。
一位影視編劇提出了另一種想法,她認爲,Sora 這類 AI 視頻模型大大降低了精美視頻的制作門檻,以後編劇的奇思妙想将有更大的呈現空間," 技術不到位 "、" 經費不夠 " 的掣肘都将減小很多。
比如,OpenAI 的一則視頻中,巨大的猛犸象緩緩走來,形象逼真,身後騰起了雪霧,遠處被白雪覆蓋的樹林與山脈清晰可見。而衆所周知,動畫《冰川時代》的實際制作費用達到 8000 萬美元之高,耗時 4 年之久。
" 那些有才華但苦于缺少投資的導演們,可能會借力 Sora 創造出許多驚人的作品。" 她補充說。
目前,Sora 尚未對公衆開放,OpenAI 正在與一些視覺藝術家、設計師和電影制作人合作,以探索如何讓 Sora 對創意專業人士提供有效幫助。
而雙刃劍的另一面,是 AI 視頻模型給現實世界帶來的虛假信息威脅也将大大增加。
近期,AI 合成的泰勒 · 斯威夫特不雅照曾引起過軒然大波,就連白宮方面也呼籲國會 " 應立刻采取行動 ",而美國政壇和民衆也對背後凸顯的技術、法律漏洞感到擔憂。
AI 生成 " 惡性視頻 " 對現實世界造成的困擾,将數倍于圖片效果。爲此,美國聯邦貿易委員會将緻力于利用工具來檢測、阻止相關冒充欺詐行爲。
爲此,OpenAI 表示,将在提供 Sora 之前采取幾個重要的安全措施,與錯誤信息、仇恨内容和偏見等領域的專家進行合作,對模型進行對抗性測試;OpenAI 也在構建工具來檢測誤導性内容,例如檢測分類器,可以判斷視頻何時由 Sora 生成。
除了開發新技術爲 Sora 保障安全性,現有的安全方法也适用于 Sora 模型,例如那些請求極端暴力、色情内容、仇恨圖像、名人肖像或他人 IP 的提示将被模型拒絕,也開發了強大的圖像分類器,用于查看生成的每個視頻的幀數,以确保在向用戶顯示視頻之前遵守 OpenAI 的使用政策。
但 OpenAI 也承認,無法預測人們使用 Sora 的所有有益方式,也無法預測人們濫用它的所有方式。
不過,目前 Sora 還有其局限性,比如可能難以準确模拟複雜場景的物理特性,并且可能無法理解因果關系的具體實例。例如,一個人咬一口餅幹之後,餅幹可能沒有咬痕。該模型還可能混淆提示的空間細節,例如,左右混淆,人類在朝着跑步機的尾部跑步。也可能難以精确描述随時間推移發生的事件,例如,五隻灰狼幼崽嬉戲的畫面中,幼崽數量可能忽多忽少,有的幼崽會憑空出現或消失。
随着技術進步,或許未來,如何判定視頻真假,也将成爲一門學問。
壓迫感:巨頭步步碾壓
另一廂,谷歌也于同一日發布了 Gemini 1.5 版本,在文本的長度上實現了大幅突破。但終究被 OpenAI 的視頻模型搶盡了風頭。
一批 AI 視頻模型創業公司也将命懸一線。
文生視頻的生成模型最早出現在 2022 年底,Pika lab、Runway 都分别貢獻過 AI 生成視頻的話題。早期,就連 Meta 和谷歌的 AI 視頻都有着 " 一眼 AI" 的問題,清晰度、邏輯性有明顯缺陷。
經過不懈努力,Runway 在 2023 年 11 月發布了 AI 視頻生成工具 Gen-2,修複了視頻畫質,也克服了不連貫、閃爍變形以及低清等問題,但生成的視頻時長最多隻能達到 18 秒。
眼下,OpenAI 一舉把 AI 視頻生成時長拉到了 60 秒,并且運鏡複雜、場景多變、人物還能夠表達豐富的情感色彩,簡直斷了其他小公司未來的路。
業内分析人士表示,如果其他 AI 視頻模型創業公司無法盡快追趕 OpenAI,恐怕将直接失去生存空間。
但這種追趕并不容易。前述 AI 大模型從業者向 21 世紀經濟報道記者表示,僅就公開信息而言,其他公司與 OpenAI 在技術能力、訓練量、耗資程度方面,都有着代際差異。
" 如果長期關注 AI 文生視頻的進展,就會知道 OpenAI 的 Sora 有多強大,是專業拳手暴打小白的差距。"、"AI 真的分成兩種,OpenAI 和其他 AI" ……相關評論也是層出不窮。
一位關注 AI 大模型的投資人向 21 世紀經濟報道記者透露,小型公司跑出來的概率變得更渺茫了,尤其是這麽燒錢的領域,很難在巨頭的陰影下做出亮點。
從文本大模型、圖像大模型,再到如今的視頻大模型,OpenAI 深刻诠釋了 " 一步先、步步先 " 的殘酷性。
實際上,Sora 之所以能這麽出色,也與 OpenAI 之前的領先優勢有關。
OpenAI 放出的技術報告透露,Sora 模型對語言有深刻的理解,使其能夠準确地解釋提示并生成表達生動情感的引人注目的角色。這背後有 GPT 的功勞,OpenAI 會先利用 GPT 将簡短的用戶提示轉換爲更長的詳細内容,再發送到視頻模型。
他們還爲視頻生成調用了 DALL · E3(OpenAI 的圖像生成模型)中的 re-captioning 技術,爲視覺訓練數據生成高度描述性的文本,使得模型能夠更忠實地遵循用戶指令。
除了能夠以文本生成視頻,Sora 模型還能夠獲取現有的靜止圖像并從中生成視頻,提高視頻的準确性及細節顆粒度,還可以對現有視頻進行擴展或填充 " 缺失幀 "。
也就是說,Sora 是站在 OpenAI 的大語言模型 GPT 以及圖片大模型 DALL · E 的肩膀上,并且跑出了加速度。
一位矽谷 AI 行業創業人士感慨說:"創業之路,離天堂太遠,離巨頭太近,如果又沒有自己的壁壘,實在太容易被淘汰了。"
而其他落後于 OpenAI 的科技巨頭,在 AI 大模型這條路上,也要時時接受來自先行者的壓迫感。
SFC
本期編輯 劉雪瑩 實習生陶陶
21 君薦讀