就在剛剛,OpenAI Sora 正式登場。
本次發布會延續了「短劇」的快節奏風格,全程 20 分鍾左右,由 CEO Sam Altman、Sora 負責人 Bill Peebles 等人主持。
OpenAI 在 X 平台表示,自 2 月份以來,他們一直在構建 Sora Turbo,後者是一個速度明顯更快的模型版本,今天也将其作爲獨立産品向 Plus 和 Pro 用戶開放。
有趣的是,由于 Sora 熱度太高,大批用戶湧入體驗網站,導緻該網站一度崩潰,停止注冊登錄。不給力的服務也讓 Altman 連連在 X 平台安撫用戶:
「由于需求超出預期,我們将不得不間歇性地關閉新用戶注冊,并且生成内容的速度會在一段時間内減慢。我們正在全力以赴!」
附上體驗地址:Sora.com
Sora 界面大揭曉,擁有 6 大神級功能,不用學剪輯了?
類似于 Midjourney 的網頁界面,Sora 同樣擁有自己單獨的用戶界面,用戶用戶不僅能夠整理和浏覽生成的視頻,還能查看其他用戶的提示和精選内容。
在 「Library」功能中,用戶可以保存自己喜歡或有用的提示詞,以便未來使用。并且保存的提示詞可以按需查看或修改,對于需要重複創作相似内容的用戶,無疑能大大提高效率。
在工作流方面,Sora 的編輯功能是區别于其它競品的重要亮點。
比如說,在 Remix 功能中,用戶可以利用純自然語言提示詞對視頻進行編輯,并通過簡單的「strength(強度)」選項和滑塊來控制生成的變化程度。
Re-cut 功能則能智能識别最佳畫面,并支持向任意方向延伸場景。
Sora 的 Storyboard(故事闆)功能則類似于視頻編輯器,可以将多個提示詞串聯在一起,生成一個更長的視頻,輕松處理複雜的多步驟場景。
搭配 Loop 和 Blend 功能,用戶還能創作出無縫循環的視頻,并完美融合不同片段,而 Style presets 功能則可以預設和調整生成的風格。
在技術規格上,Sora 支持 5-20 秒的視頻生成,并兼容 1:1、9:16 等主流寬高比。相比早期版本,現在的生成速度有了顯著提升。
另外,還有幾點細節需要注意。
OpenAI 采用了靈活的積分制定價策略,積分數量因分辨率和持續時間而異,如果你早已是 ChatGPT Plus 和 Pro 會員,那就無需額外費用就能使用。
比如生成一個 480p、5s 的視頻就需要 25 個積分,如果生成 480p、20s 的視頻則需要 150 個積分。
此外,如果你用 Re-cut、Remix、Blend 或者 Loop 這些功能,生成的作品超過了 5 秒鍾,那也得額外扣你的積分,多用多花錢,别超時,超時也花錢。
對于訂閱用戶而言,20 美元的 ChatGPT Plus 計劃提供 50 個優先視頻額度(1000 積分),支持最高 720p 分辨率和 5 秒時長。
而 200 美元的 ChatGPT Pro 計劃則提供最多 500 個優先視頻(10000 個積分),支持 1080p 分辨率、20 秒時長、5 個并發生成和無水印輸出。
OpenAI 還在爲不同類型的用戶開發不同的定價模式,将于明年初推出。
對了,Sora 暫不支持 ChatGPT Team、Enterprise 和 Edu 版本,同時也不向 18 歲以下用戶開放。現階段,用戶可以在所有 ChatGPT 可用的地方訪問 Sora,但英國、瑞士和歐盟等地區除外。
實測 Sora 暴露最大短闆,但這些場景堪比專業級
知名博主 Marques Brownlee 提前一周用上了 Sora,并在 YouTube 上分享了他的使用體驗。
他指出這款産品仍存在一些局限性。
在物理模拟方面,模型對物體運動的理解還不夠深入,常常出現動作不自然、物體突然消失等問題。特别是在處理帶有腿部運動的對象時,經常出現前後腿位置混亂的情況,導緻動作看起來不自然。
又或者,某些視頻生成結果看起來像是慢動作,而視頻的其他部分則以正常速度播放,肉眼很容易察覺這種「别扭」。簡言之,Sora 還是沒能解決老毛病,缺乏對物理世界規律的理解。
另外,Sora 沒能解決文字生成的問題,導緻經常出現文字混亂的現象,而剪輯風格、文字滾動條的運動、新聞主播風格的生成則格外逼真。
不過,Sora 也有不少擅長的場景。
比如說,Sora 在風景鏡頭處理方面表現出色,能生成媲美專業素材的無人機航拍鏡頭,在卡通和定格動畫風格上的表現也差強人意。
性能方面,一個 5 秒的 360p 視頻通常能在 20 秒内完成生成。
不過,當涉及 1080p 或複雜提示詞時,生成時間可能會延長到幾分鍾,但随着如今大批用戶的湧入,生成速度明顯慢了大半拍。
不少網友也在第一時間上手體驗了 Sora。比如網友 @bennash 想生成一個視頻,渲染了 22 分鍾都沒能成功,甚至該網站一度停止注冊登錄。
博主 @nickfloats 給出的評價是,Sora 在将圖像轉換成視頻時,雖然某些特定的視覺特效沒有被保留,但整體的轉換效果是「清晰和令人滿意的」。
Sora 能成爲 OpenAI 的下一隻「金母雞」嗎?
Sora system card 也列出了一些值得關注的細節。
OpenAI 官方認爲,Sora 爲能夠理解和模拟現實世界的模型提供了基礎,将是實現通用人工智能(AGI)的一項重要裏程碑。
官方博客中提到,Sora 是一種擴散模型,它通過從一段看起來像靜态噪聲的基礎視頻開始,逐步去除噪聲并轉變爲最終的視頻。通過同時處理多個幀,模型成功解決了一個難題:即使目标暫時脫離視野,也能确保其在視頻中始終保持一緻。
與 GPT 模型類似,Sora 采用了 Transformer 架構。
Sora 使用 DALL · E 3 中的标注技術,該技術爲視覺訓練數據生成高度描述性的标簽。因此,模型能夠更準确地根據用戶的文本指令生成視頻内容。
除了能夠僅通過文本指令生成視頻外,Sora 還能夠從現有的靜态圖像生成視頻,準确地将圖像内容進行動畫化,并注重細節。該模型還可以從現有的視頻中擴展或填補缺失的幀。
爲了确保安全地部署 Sora,OpenAI 基于 DALL · E 在 ChatGPT 和 API 部署中的安全經驗,以及 OpenAI 其他産品(如 ChatGPT)的安全防護措施進行了強化。
未經他人許可使用他人肖像,并禁止描繪真實未成年人;
創建非法内容或侵犯知識産權的内容;
禁止生成有害内容,例如未經同意的親密影像、用于欺淩、騷擾或诽謗的内容,或旨在傳播暴力、仇恨或使他人痛苦的内容;
創建并傳播用于欺詐、詐騙或誤導他人的内容。
所有 Sora 生成的視頻都帶有 C2PA 元數據,這些元數據能夠标識視頻的來源是 Sora,從而提高透明度,并可用于驗證其來源。
與此前憑借真實人像出圈的 Flux 不同,Sora 們對上傳包含人物的内容設定了特别嚴格的審核标準,目前僅作爲試點功能提供給少量早期測試者,并屏蔽含有裸露的内容。
大半年前,初試啼聲的 Sora 赢得互聯網一片喝彩。
然而,如果說一年前尚未還能對着一群演示 demo 空喊「現實不存在了」,那麽在國内外各類視頻模型的輪番洗禮之下,我們早已養刁的胃口很難再被同樣的産品打動。
這種态度的轉變源于一個簡單的事實。
當 AI 要從「勉強可用」進化到「可堪大用」,用戶的期待也随之升維,從「能否做到」躍遷至「做得多好」。
好在 Sora 并未在掌聲中原地踏步,通過與藝術家的深度合作,他們在工作流程領域做出了顯著的改進。Re-cut、Remix、Storyboard 等功能都相當實用。
甲乙方的存在決定了工作流中的溝通永遠是剛需,AI 能做的是讓這種溝通更有效率,Sora 的價值不在于它能做什麽,而在于讓創作者得以抽身于技術細節,真正回歸創意的本質。
與此同時,上周引發熱議的 200 美元 ChatGPT Pro 訂閱計劃,如今也有了更合理的價格錨點,該計劃同樣支持無限制訪問 Sora,這種産品協同效應預計也将激發出遠超預期的應用場景和商業價值。
放眼當下,用戶的真金白銀從不作假。
可靈 AI 交出千萬級月流水的亮眼成績單,這片藍海的潛力已呼之欲出,對于仍在「燒錢」階段的 OpenAI 來說,Sora 預計會成爲繼 ChatGPT 之後的另一個下金蛋的母雞。
當 Sora 從「能用」「好用」,再到「妙用」,或許未來某一天,我們會發現,真正不存在的,不是現實,而是人類創造力的盡頭。