文章首發 智能湧現公衆号
文 | 田哲
編輯 | 蘇建勳
12 月 10 日淩晨,OpenAI 正式發布視頻模型 Sora 的高端加速版本—— Sora Turbo,相比初代 Sora,Sora Turbo 生成視頻速度更快。
據悉,OpenAI 推出的初代 Sora 平均 10 秒生成一秒的視頻,而在直播演示中,Sora Turbo 同時生成四條 10 秒時長的視頻,總耗時僅 72 秒。
與此同時,Sora Turbo 能以更低廉的成本,實現文本 / 圖像 / 視頻生成視頻。
即日起,Sora Turbo 已向訂閱 OpenAI Plus 和 Pro 的會員開放全部功能,無需額外付費,但不同會員類型的使用額度有所差異:
每月付費 20 美元的 OpenAI Plus 會員,單月共有 50 次視頻生成額度;每月付費 200 美元的 Pro 會員,單月可慢速無限次生成視頻,加速生成視頻 500 次,如果生成高分辨率的視頻,可用次數将更少。
生成視頻方面也有所差異。Plus 會員生成的視頻分辨率最高爲 720p,單條視頻時長爲 5 秒;Pro 會員可同時生成 5 條視頻,分辨率達到 1080p,時長則提升到 20 秒。
OpenAI 官網顯示,Sora 已支持全球 155 個國家及地區使用,不包括中國大陸和歐洲大部分地區。
随着 Sora 開放使用,網友瘋狂湧入導緻服務器被擠爆。對此,OpenAI 創始人兼 CEO Sam Altman 發文表示,用戶注冊已被關閉,并且視頻生成速度将在一段時間内變慢。
來源:X
一場在線視頻工具教程
OpenAI 團隊将 Sora 定義爲一款創意工具,允許用戶通過一段文字描述、一張圖片或者一段視頻,生成期望的視頻。
他們提到,Sora 無法實現一鍵生成一段故事片,而是需要不斷優化。爲了直觀介紹 Sora,OpenAI 将 Sora 發布會直播,俨然變成了在線視頻工具教程。
如果用戶需要生成一段視頻,需要打開分鏡(Storyboard),分鏡展示四個視頻,以不同視角展示視頻細節。
分鏡展示畫面的不同角度
在分鏡中,用戶在描述框輸入期望的視頻指令,設置風格、畫面比例、時長、分鏡個數、分辨率後,就能生成視頻。
目前,Sora 可支持生成最長 20 秒,分辨率爲 1080p 的視頻,畫面比例可選 16:9 / 1:1 / 9:16 三種。
OpenAI 介紹,如果用戶的視頻指令字數越少,Sora 就會在細節上更多填充;字數越多,就更遵從用戶的指令。
直播中,OpenAI 在描述框中輸入 " 一隻黃尾白鶴站在小溪裏 " 的指令,将這條視頻片段放入時間軸前部分,接着在新視頻輸入 " 這隻鶴将頭探入水中并叼出一條魚 " 指令,将其放在同一個時間軸的後部分。兩段視頻并不連續,因此需要 Sora 自行生成過渡視頻,将兩個視頻合成爲一段完整視頻。
結果顯示,Sora 按照指令生成了清晰的視頻,并在兩個視頻片段生成平滑的過渡片段,讓視頻連貫且具有故事感。不過,視頻中沒有生成明顯的魚,卻有鶴叼起魚時濺起的水花。
兩個視頻合成爲一條視頻
此外,用戶也可直接上傳一張圖片或者視頻,Sora 可以根據内容,生成後續視頻的文字描述,用戶可随意更改後續視頻的指令。
比如,提交一張燈塔的圖片後,Sora 會在之後創建一張卡片描述後續将生成的視頻,用戶可以更改指令,并在時間軸調整位置決定生成的視頻何時播放。
上傳燈塔圖片,Sora 自動描述後續視頻
初始視頻生成後,用戶如果需要優化,可通過 remix 工具改變物體,比如将猛犸象替換爲機器人、更改人物表情等。爲此,Sora 還設置了細微、輕微、強力三種強度,以滿足用戶不同的更改需求。
将猛犸象替換爲機械化猛犸象
如果用戶對生成視頻的部分片段滿意,可使用 recut 工具剪輯需保留的片段,再通過指令擴充視頻,從而獲得一段新視頻。
此外,Sora 還具備 loop 和高級功能 blend,前者允許用戶讓視頻無限循環,Sora 可生成細節讓視頻首尾銜接;後者可将兩個完全不同的場景融爲一體。
不隻是工具,而是實現 AGI 的路徑
今年 2 月,OpenAI 首次推出初代 Sora,可根據用戶輸入的提示詞生成最長一分鍾的高清視頻。此後,Sora 開始長達 10 個月的封閉測試,僅向視覺藝術家、設計師和電影制作人等特定外部人員開放。
直到此次直播開始前數小時,有關 Sora 的官方最新視頻展示才在網絡流出。
而在 Sora 封閉内測的時期内,中國的類似産品如可靈 AI、即夢 AI、海螺 AI 已在海外獲得一批用戶的認可。
據國外網站分析工具 Similarweb 顯示,11 月可靈 AI 的全球總訪問量達到 940 萬次,超越海外同類産品 runway 的 710 萬次;在提前流出的 Sora Turbo 演示視頻推文下,不少國外用戶表示,其視頻效果與中國同類産品相似。
Sam Altman 曾表示,Sora 的更新速度不及預期,原因在于完善模型需要确保安全性,以及擴大計算規模。
據悉,爲了保證模型訓練得以進行,OpenAI 已與半導體公司 Broadcom 合作研發運行模型的人工智能芯片,最早或将于 2026 年推出。
Sora 對于 OpenAI 的意義,遠不止一款視頻生成工具。此次直播中,Sam Altman 強調,希望 AI 能夠理解并生成視頻,以改變人們使用電腦的方式,同時将有助于 OpenAI 實現通用人工智能(AGI)。
不過人們對這一說法看法不一。階躍星辰 CEO 姜大昕曾告訴智能湧現,其理解 OpenAI 推出 Sora 是爲了探索叠代多模态生成能力,因此階躍星辰也沿着 OpenAI 相似的路徑研究通用人工智能技術;Meta 首席人工智能科學家 Yann LeCun 則認爲,通過生成像素模拟世界的行爲,浪費資源且注定失敗。
通用人工智能的應用時間已在 OpenAI 計劃表内。Sam Altman 上周對媒體表示,通用人工智能的首批應用案例最快在 2025 年出現,人們可以設定一項非常複雜的任務,AI 将使用不同工具完成。
" 最初通用人工智能産生的影響可能較小,最終,其影響力之強将超乎人們所想,正如每項重大技術出現,會有大量工作崗位被替代。"
或許随着 Sora 的開放使用,其對于通用人工智能影響将逐漸強烈,OpenAI 也将實現其最終目标。