Open AI又投下一枚“核彈”

作者 | 柴旭晨

沒有絲毫預熱和劇透，Open AI 深夜直接丢下核彈炸了街，從業者深感要變天。

2 月 16 日淩晨，Open AI 發布了首個 " 文生視頻 " 模型 Sora。官方介紹，Sora 能根據文字指令創造出包含豐富細節的逼真場景、角色，且能用多角度鏡頭，生成一鏡到底的 60 秒長視頻。

目前官網上已經更新了 48 個樣片，視頻中人物、背景都具有驚人的一緻性。并且借助于對語言的深刻理解，Sora 創造出的角色能表達豐富的情感。

更令業内驚歎的是，Sora 身上似乎開始出現 " 世界模型 " 的雛形。通過大量觀察訓練，它學會了許多關于真實世界的物理規律。

要知道，原先動畫影視公司爲讓動物的數百萬根毛發、皮膚紋理、衣物等細節在 3D 建模中表現得如現實場景般真實，爲此專門成立研究部門，且投入了不菲的成本和時間才得以實現。而如今，Sora 隻需要一行描述、幾次提示便能自動完成。

雖然 Open AI 坦言 Sora 仍有一些效果上的瑕疵，也因潛在的風險暫未對公衆開放。但憑借着極度真實的視覺效果，這一足以 " 模糊虛實 " 的王炸級技術，正粗暴地沖擊着大衆心智。

事實上，文生視頻并非 Open AI 的獨門，賽道早已湧入大量玩家。去年下半年開始，谷歌、Meta 及部分 AI 創業公司相繼下場試水，國内的字節跳動也于 11 月推出了文生視頻模型 Pixel Dance，阿裏雲的 Animate Anyone 以及百度文心大模型的類似功能同樣在内測。

入局者衆多，但各家效果卻未達預期，當 Runway Gen2、Pika、PixVerse 等 AI 視頻工具還在突破數秒内的連貫性時，Sora 已經将時長拉至 1 分鍾，大幅度拉高生成視頻的可用性。影眸科技 CTO 張啓煊評價道，Sora 跟 Pika、Runway 及同類玩家已拉開代差。

颠覆性的效果，伴随的是颠覆性的思路。360 董事長周鴻祎指出，現在所有文生圖、視頻的模型都是在 2D 平面上對圖形元素進行操作，并未适用物理定律。

而 Open AI 利用了其大語言模型優勢，将 LLM 和 Diffusion 結合訓練，通過學習視頻，理解現實世界的動态變化規律，并模拟、創造出新的視覺内容，由此産生的視頻真實感十足。

回溯來看，文生視頻能蔚然成風，成爲全球新一輪 AIGC 競賽的焦點，因爲大家都嗅到了短視頻在全球直播電商、内容創作等新興行業的巨大機遇。周鴻祎就認爲，Sora 可能給廣告業、電影預告片、短視頻行業帶來巨大颠覆，成爲激發創作力的工具。

AI 從業者更一葉知秋地感受到，Sora 在展示視頻制作能力外，更多暗含的是大模型逐漸掌握對真實世界的理解及模拟能力後，可能會帶來更驚歎的突破和成果。

有強勁大模型的底座、基于對人類語言的解析、對人類知識和世界模型的了解，再疊加其他技術，周鴻祎認爲這便可以創造各個領域的超級工具。因爲這種 " 先記憶，再預測 "，正是人類理解并與世界交互的方式。

他舉例稱，Sora 對物理世界的模拟，就會對智能駕駛領域産生巨大影響。原先智駕 " 重感知 " 卻 " 輕認知 "，他認爲人在駕駛時的很多判斷，是基于對這個世界的理解，缺乏這一點很難做出真正的無人駕駛。

行業專家普遍認爲，應用層面衍化的終局，便是真正通用人工智能（AGI）時代的到來。

Sora 的技術文檔就寫道，" 我們的結果表明，視頻生成模型是有希望向構建通用物理世界模拟器邁進的路徑 "。

" 一旦人工智能接上攝像頭，把所有電影、視頻都看一遍，其對世界的理解将遠超文字學習。AGI 真的就不遠了，不是 10-20 年的問題，可能一兩年就能實現。" 周鴻祎如是說道。

" 我相信 Open AI 手裏或許還藏着一些秘密武器，無論是 GPT-5，還是機器學習自動産生内容。" 周鴻祎稱，" 奧特曼是個營銷大師，知道怎樣掌握節奏 "。

這與 Sam Altman 要籌集 7 萬億美元，塑全球 AI 芯片基礎設施的野心形成閉環，因爲通往通用人工智能的道路上，需要極爲龐大的算力。

近期有投資界人士透露，Open AI 正讨論新一輪融資，估值高達千億美元。作爲頭羊，有着獨霸 AI 行業、重塑全球 AI 芯片行業的龐大野心的 Open AI，勢必要借助資本的助推不斷滾雪球。

回溯來看，在這場 AI 公司、資本交織的遊戲中，技術叠代一直是跳躍式的，并不會給大家慢慢來的時間。

未來的世界和 AI 行業究竟會駛向何方？還難以斷言，但眼下的 2024，必将又是刺激的一年。