财聯社 3 月 14 日訊(編輯 潇湘)OpenAI 首席技術官米拉 · 穆拉蒂 ( Mira Murati ) 近期在接受媒體采訪時透露,OpenAI 人工智能文生視頻大模型 Sora 即将于今年晚些時候正式向公衆發布,OpenAI 計劃最終加入音頻功能,以使場景更爲真實,同時還将允許用戶編輯 Sora 生成的視頻内容。
盡管眼下距離 Sora 正式對外發布尚有一段時日,但 OpenAI 已經向世人揭示了這款工具的巨大潛力——僅需幾句精心設計的提示語,Sora 便可創造出幾乎足以替代許多視頻制作專業人員的出色作品。與市面上那些時長短暫、分辨率低下的 AI 視頻作品相比,Sora 的視頻看起來就像是紀錄片或電影中的夢幻場景。
而 Murati 也在最新采訪中,向外界介紹了 Sora 究竟是如何通過簡單的提示文本,完成這些美輪美奂的視頻制作的,她還詳細介紹了 Sora 眼下存在的一些不足,以及接下來會着重防範和改進的地方 ……
請你想象一幕場景:" 一條美人魚和她的螃蟹夥伴,正在一起浏覽智能手機 ……"
作爲這場媒體采訪的 " 福利 ",主持人獲得了讓 Sora 将其提供的多組文本提示,轉化爲視頻圖像的機會,而以上的這一幕,便是 Sora 提供的視頻中的一幀。
Sora 究竟是如何實現這一轉換的呢?Murati 表示,盡管解釋美人魚的進化可能都要比解釋 " 擴散模型 " ( diffusion models ) 的内部運作容易得多,但簡而言之便是:人工智能模型分析了大量視頻,學會了識别物體和動作。然後,當你給它一個文字提示時,它就會勾勒出整個場景,然後填充每一幀。
行業觀察家和 OpenAI 的競争對手—— Runway 首席執行官 Cristóbal Valenzuela 等業内人士,将這些卓越的成果歸功于 OpenAI 強大的計算能力和訓練數據。不過,OpenAI 最近也面臨着版權侵權訴訟:指控這家人工智能初創公司未經許可擅自獲取内容來訓練 ChatGPT。
在被問及 OpenAI 爲 Sora 使用了哪些訓練數據時,Murati 指出," 我們使用了公開數據和授權數據 "。當主持人繼續深入問及這是否包括來自 YouTube、Instagram 和 Facebook 的視頻時,Murati 最初表示她并不清楚具體細節,但後來确認,已獲授權的材料涵蓋了來自知名版權圖片網站 Shutterstock 上的内容,而 OpenAI 與 Shutterstock 有着合作關系。
Murati 認爲,對于用戶來說,人工智能模型就像是一個神秘的黑盒子——人們知道輸入的提示語和輸出的内容,但并不了解中間的步驟。因此,人們可能永遠不會知道爲什麽最終生成的内容會是這樣的——例如上面這張視頻截圖裏,美人魚的螃蟹夥伴留着胡子,就像海綿寶寶的朋友蟹老闆。巧合嗎?也許吧 ……
在另外一段視頻裏,主持人要求 Sora 制作一段她更爲符合這場采訪的内容:" 兩位 30 多歲、有着棕色頭發的職業女性,在一個光線充足的演播室裏坐下來接受新聞采訪。"
最終,在 Sora 交出的 " 作業 " 裏,無論是兩位女性嘴型和頭發的動捕,還是皮夾克上的細節,一切看起來都那麽真實。Murati 指出,這段 20 秒的 720p 分辨率短片,Sora 花了幾分鍾才制作完成,但目前還未能支持配備音效。
但 Murati 已承諾,他們計劃最終會添加聲音。
Murati 還表示,當前 Sora 生成視頻的成本遠高于該公司的圖像生成器 Dall-E。不過,在未來向公衆正式發布時,OpenAI 将進行優化,以降低對算力的需求。
當然,不容忽視的是,在如今 Sora 才剛剛問世的早期階段,其生成的内容中還存在一些極爲明顯的瑕疵。
以上述 Sora 制作的采訪視頻爲例,雖然整體的畫面呈現效果頗爲令人驚歎,但細節上還是不難發現問題——在某幾幀畫面裏,淺色頭發的女人的一隻手上似乎長出了 10 根手指。
Murati 對此解釋稱," 要準确呈現手部動作真的很難。"
在另一個視頻中,主持人要求看到一個機器人從電影制片人手中奪走攝像機。
而 Sora 對此的诠釋是——人類電影制片人直接變形成爲了機器人。此外,在背景中的一輛黃色出租車,也在機器人 " 奪舍 " 的過程中變成了一輛銀色轎車。
Murati 對此點評稱,Sora" 在維持連貫性方面表現尚可,但并不完美 "。
毫無疑問,眼下的 Sora 還有着各種各樣的不足。但如果未來某一天,這些問題全都消失了,人們或許也将面臨一個新困擾:該如何區分真實視頻和人工智能生成的視頻?
Murati 表示,未來 Sora 生成的每個視頻下方都會有一個水印。這些視頻最終也将包含元數據,以标明它們的來源。此外,OpenAI 還将有一個 Red Teaming 安全測試團隊,安全測試人員會嘗試向 Sora 發出提示,以找出漏洞、偏差和其他有害結果。
Murati 指出," 這就是我們實際上還沒有部署該系統的原因。我們需要搞清楚這些問題,然後才能放心地廣泛部署。"
此外,Sora 的提示限制政策可能也會沿用 Dall-E 的政策。例如,人們無法用 Sora 生成公衆人物的圖像——當要求其生成 " 美國現任總統的電視新聞畫面 " 時,Sora 會拒絕這一請求。
親手制作好萊塢大片不是夢?
随着 Sora 在過去一個月的驚豔亮相,這一令所有人耳目一新的産品,對于一些傳統行業的沖擊無疑也是巨大的,而最直接影響的,或許便是曾長期經久不衰的美國好萊塢。
著名電影制片人 Tyler Perry 在看到 Sora 的潛力後,就于近期宣布将暫停耗資 8 億美元的工作室擴建計劃。他認爲這項 AIGC 技術能夠削減布景和外景拍攝的成本,但也令人對電影行業的未來抱有擔憂。
而當主持人向 Murati 詢問 Sora 對視頻制作工作的影響時,她也再次重申了 OpenAI 目前采取的緩步審慎策略,并表示 OpenAI 正在與行業内部人士合作,進行早期的測試和反饋征集。
正如主持人在讓 Sora 制造的另一段視頻中所呈現的那樣——如果将 OpenAI 比作是瓷器店裏的公牛,那麽它現在可能正在輕裝上陣。但不可避免的是,它将開始砸壞那些原本安放着的盤子 ……