文 | 最話 FunTalk,作者 | 何伊然,編輯 | 劉宇翔
OpenAI 又一次震撼了科技圈。
當地時間 2 月 15 日,OpenAI 推出旗下首款視頻生成模型 Sora。官方介紹寫道:" 我們打造了一種名爲 Sora 的文本到視頻模型。Sora 能夠生成長達一分鍾的視頻,同時保持視覺質量和對用戶提示的遵循。"
Sora 是日語 " 天空 " 的羅馬音字母,在英語裏則有小鳥在空中詠唱的意思。它像是 OpenAI 此前推出的圖像生産系統 DALL · E 與 AI 聊天機器人 ChatGPT 的混合升級視頻版本。
過去一年,生成式 AI 視頻創業已是一條熱門創業賽道,湧現出了一批備受矚目的獨角獸,也給出了不少有創意的作品。但外界普遍仍抱有 AI 生成視頻和實拍差距明顯,全面推廣商用并不會在短期内實現的想法,然而 Sora 的演示樣片徹底颠覆了大衆的認知。
通過 OpenAI 給出的案例演示來看,用戶隻需要輸入簡短的文字描述,Sora 就可以将文本内容轉化爲一分鍾的高清視頻。
年輕的東亞女性走在充滿霓虹燈的東京街頭、兩艘戰船在咖啡杯裏斡旋、黑人小夥在雲端聽歌、古鎮巷子裏迎接龍燈的男女老少……畫面不僅包含高度詳細的場景、神态動作機器逼真的人物形象,更是呈現出如同電影效果的攝影機運動曲線和同一場景多景别取景。
不僅如此,Sora 還可以根據靜态圖像制作動畫,立體平面多種風格都可以實現,說是動畫工作室出品的最新短片也不爲過。
如果不仔細觀察,視頻畫面基本沒有 AI 制作的違和感,甚至可以抵得上好萊塢娴熟的現場實拍和龐大的後期團隊合在一起數月的工作量。
Sora 的進化速度,連《流浪地球》的導演郭帆都發朋友圈感慨," 太快了 ",并配上了 " 哭泣 " 的表情。
不止大佬郭帆,整個影視行業都在密切關注 Sora。"Sora 大幅提高了影視工業的生産力。" 資深影視從業者老邱對《最話》說," 人人都可以成爲導演的時代快來了。"
01 視頻行業的 iPhone 時刻?
從樣片來看,Sora 呈現的效果遠超 Pika、Runway。之前的文生視頻模型基本上是生成單鏡頭,一旦輸入新的提示語,畫面主體會出現明顯變化。Sora 生成的視頻在視角轉換、鏡頭景别切換後,可以保持主體的一緻性,這讓一個人足不出戶制作獨立完整的視頻作品變爲可能。
Sora 正式上線後,專業短視頻制作成本或将大幅度降低。
" 用 AI 工具開發一個小說 IP,前期開發的文字和圖片成本可能是以前的十分之一,做一條 30 秒預告片 demo 的成本,成本可能是以前的二十分之一。" 老邱認爲," 有好多故事和題材,一個人用 Sora 就能做一條片子。"
但 Sora 的高效率會不會沖擊到影視行業從業者的飯碗?
以短視頻團隊爲例,短視頻平台上 1 秒種長度的專業内容基本就對應着 1 個小時的專業工作量,一個賬号基礎配置包括出境博主、攝影師、剪輯師的 3 人團隊。一個日更 30 秒視頻的賬号需要小團隊每日的高頻産出來維持更新頻率。
使用 AI 生成視頻後,不僅可以省去實地拍攝的所有成本,攝影師和剪輯師可有可無,甚至連博主都不需要了。隻需一個人闡述文本内容就能運作多個賬号,且每個賬号的主角還能不一樣。
據美媒報道,好萊塢正在擔心 AI 将導緻舞美、後期、特效等崗位出現大面積失業。有統計稱,美國的創意行業未來三年将有近 20.4 萬個崗位受到 AI 的沖擊。
去年 5 月 2 日,美國編劇工會(WGA)宣布罷工。7 月 13 日,代表 16 萬演藝人員的美國演員工會及廣播電視藝人聯合工會(SAG-AFTRA)也宣布與制片公司的談判破裂,從即日起進行罷工。兩次大罷工,原因除了演員、編劇與資方的薪資矛盾外,人工智能可能取代演員和編劇的威脅成爲主要原因。
據中國僑網消息,參與談判的人表示,通貨膨脹和流媒體生态系統、福利以及不受監管地使用人工智能的威脅削弱了他們的基本工資。
但也有業内人士對此抱有不一樣的态度。樂觀主義者将 Sora 視作是 " 視頻行業的 iPhone 時刻 ",将它視作輔助創意執行的工具。"Sora 的魅力在于能夠培養創造力。導演可以嘗試不同的美學或場景,而無需承擔與傳統制作相關的财務風險,爲以前僅限于想象力的叙事和視覺風格打開了大門。"
老邱也是類似的觀點,"AI 将大幅提升影視作品的産量,更多元的品類和商業玩法,從而抵消專業從業者被 AI 替崗的沖擊。"
AI 生成工具需要大量内容進行訓練,而這些内容都是此前創意行業從業者辛勤工作得出的成果,所以有創意工作者在質疑大模型訓練是否侵權,AI 生成的内容是否可以商用,甚至一些編劇拒絕将其作品用于 AI 訓練和創作素材。
客觀來說,版權保護、就業崗位與生成式 AI 發展存在相互制約的。目前,各國司法機構都沒有給出明确的界定,短期内相關方還會處于博弈狀态。
而相比起國外創意工作者擔憂版權被侵權,國内從業者則看淡許多。目前,影視行業在研究如何引導 AI 制作電影短片。老邱認爲," 在摸索如何用好 AI 工具方面,中國影視人非常卷,國外的影視人遠遠沒有中國同行瘋狂。"
02 " 中國版的 Sora" 在哪?
受 Sora 影響的不止影視、創意、廣告等行業。"Sora 生成的視頻質量之高 , 會讓現有視頻生成公司立即感受到威脅。"
Sora 發布後,此前宣布全面擁抱 AI 的圖片軟件公司 Adobe 股價應聲下跌 7%,哪怕其去年推出的主打文生圖的 FireflyImage2、矢量圖模型 FireflyVectorModel 以及設計模版生成模型 FireflyDesignModel 已經令人驚豔。
讓人驚訝的是,Sora 背後團隊的核心成員僅有 13 人, 2 位負責人也不過剛博士畢業。Tim Brooks 是 DALL-E 3 作者之一,在英偉達實習時負責過視頻生成研究項目;William Peebles 則與 CV 行業大神級人物謝賽甯合作發表了 DiT 模型,首次将 Transformer 與擴散模型結合到了一起。
從時間線來看,Sora 并非是醞釀多年的項目,就是這支年輕的團隊在一年内搞出來的成果。Tim Brooks 稱:" 我們認爲建立能夠理解視頻的模型,并理解我們世界中所有這些非常複雜的交互,對于人工智能系統而言是非常重要的一步。"
Sora 一出,OpenAI 在生成式 AI 領域的領軍地位再次得到了鞏固,市場立刻給出了積極反饋。早已和奧爾特曼分道揚镳的馬斯克在個人賬号發出了 "gg humans(人類服輸)" 的感歎。
從 Meta 離職加入紐約大學的謝賽甯盛贊 Sora 将改變行業,并在社交賬号拆解起 OpenAI 構建大模型的邏輯。他分析稱,Sora 應該是建立在帶有 Transformer 主幹的擴散模型 DiT 之上的。Sora 可能不需要龐大的 GPU 來訓練,目前大約 30 億個參數,仍有快速叠代空間。
面對外界的驚歎,OpenAI 一如既往以退爲進,用謙虛的言辭炫耀着實力。
OpenAI 稱,Sora 存在難以準确模拟複雜場景的物理特性、無法理解因果關系的具體實例和混淆提示空間細節的缺陷,目前還處在測試階段。公司将會給視覺藝術家、創意工作者提供訪問權限,以便收集專業人士的改進建議,進一步完善模型。
如果說國内影視圈、創意圈是在研究如何用 Sora 降本增效,自媒體圈是在研究如何以 Sora 爲噱頭賣課,那麽Sora 的驚豔亮相無疑讓科技公司重燃激情,文本生成視頻賽道成爲新戰場。
今年 2 月 7 日,抖音集團 CEO 張楠宣布已辭去集團 CEO 一職,未來将把精力聚焦在剪映的發展上。據媒體報道,過去一年,張楠把絕大多數精力傾斜到剪映相關業務上,并親自帶隊尋求在 AI 輔助創作上有所突破,即将推出一個 AI 生圖和視頻的産品。
八天後,Sora 的火爆讓外界猜測張楠的調崗是否是字節在做更深的布局。近日更是有傳言稱,字節跳動已經在研發一款名爲 Boximator 的創新性視頻模型,有人因此認爲 " 中國版的 Sora" 即将來了。
對此,字節跳動相關人士也向《最話》回應稱,"Boximator 是視頻生成領域控制對象運動的技術方法研究項目,目前還無法作爲完善的産品落地,距離國外領先的視頻生成模型在畫面質量、保真率、視頻時長等方面還有很大差距。"
根據公開信息顯示,截至 2021 年,剪映的月活用戶已經突破 1 億,是國内最大的移動視頻編輯産品,其已内置了多項 AI 功能。
而從字節對媒體的回應來看,Boximator 模型仍然處于研發階段,預計将在 2-3 個月内發布測試網站。到時才能獲悉其對視頻創作的影響,以及是否會與剪映進行融合。
除了字節的剪映,還有不少互聯網公司都推出了自家剪輯工具産品,例如快手推出的快影,B 站交出的必剪,但均未公開是否有類 Sora 産品的計劃。
視頻制作成本高,而各大影視平台自制劇越來越多,以愛奇藝爲例,每年的内容成本就需要上百億。使用 AI 生成視頻技術将極大降低成本,提高特效。據介紹, 愛奇藝已率先開始在内容策劃、開發、制作、宣發等核心環節落地生成式 AI 的應用,并在文本、圖片、聲音、視頻四大應用場景形成了一定生産力。
而另一個視頻平台優酷最近上線的《大唐狄公案》是其首部 AI 輔助生成特效畫面的劇集。相比傳統特效方式,阿裏大文娛的 AI 技術,可以用更短時間完成各類虛拟場景的搭建,生成超高精度的特效畫面。據《最話》了解,優酷目前正在研究 Open AI 的産品,而此前火爆一時的 AI 生成寫真應用 " 妙鴨相機 " 就是優酷内部創業項目。
除了視頻平台,還有不少 AI 企業正密切關注着 Sora,今年或推出類似的應用。"Sora 給中國科技公司們趟出了條路,指出了方向。" 一位科技企業技術人員對《最話》說," 當然,我們的人才、算法比人家還是差得遠。"
03 進擊的巨頭
接連不斷的颠覆性産品讓 OpenAI 的影響力與日俱增。盡管還保持着獨特的股權結構,但 OpenAI 确實越來越商業化了。據報道,OpenAI 與風險投資公司 Thrive capital 達成最新股票出售協議,公司估值突破 800 億美元,是僅次于字節跳動和 SpaceX 的第三大獨角獸。
有起就必然有落。
一夜之間,Sora 成爲行業投資人議論的焦點。OpenAI 的每一次突破都會讓資本對它的想象空間進一步擴大,同行競争者能夠拿到的資源也會變少。
不少小型初創公司創始人在看到 Sora 呈現的效果不得不思考新的發展方向。有分析人士甚至悲觀地表示,ChatGPT 終結了 AI 文本生成創業,Sora 要終結 AI 視頻生成創業了。
前阿裏技術副總裁,正在進行 AI 創業的賈揚清認爲:"從算法小廠的角度,要不就算法上媲美 OpenAI,要不就垂直領域深耕應用,要不就選擇開源。"
OpenAI 的遙遙領先使得其越發向着壟斷巨頭的趨勢進化,讓諸多 AI 領域的創業公司如坐針氈。
除了 AI 創業者,作爲大模型的根基,芯片制造領域和 OpenAI 的關系也在變得微妙。
ChatGPT 爆火後,從絕對數值來看,英偉達顯然是比 OpenAI 更大的受益者。2 月,英偉達市值飙升至 1.8 萬億美元,趕超谷歌、亞馬遜,成爲美股第三大上市公司。
如果能擁有算力芯片的研發、制造和生産能力,OpenAI 就可以串聯起整個産業鏈,奧爾特曼越發想介入上遊。
2 月,OpenAI 創始人奧爾特曼被爆在跟中東投資人兜售旨在提高全球芯片制造能力的大項目。知情人士透露,奧爾特曼認爲現有的 AI 芯片供應量跟不上 AI 的高速發展,芯片會成爲實現通用人工智能障礙,他希望籌集 5 至 7 萬億美元來建立新的 AI 芯片企業。
奧爾特曼的表述顯然言過其實。根據市場調研機構 IC Insights 報告,2023 年全球整體芯片市場的收入預計提高 24%,史上首次突破 5000 億美元。按現在的增長速度,2030 年芯片業收入才有望突破 1 萬億美元。
" 如果你隻是假設計算機不會變得更快,你可能會得出這樣的結論:我們需要 14 個行星、三個星系和四個太陽來爲這一切提供燃料,但計算機架構仍在不斷進步。"
同爲輿論焦點人物,英偉達首席執行官黃仁勳雖然認爲各國都需要建設獨立的 AI 基礎設施,但是并不認可奧爾特曼的誇張性表達。他認爲,芯片業的擴張并不意味着數量爆發,而是要提升 AI 計算的效率,過去十年算力成本已經下降了 100 萬倍。一味地擴大産能将導緻供需失衡,沖擊芯片的價值。
OpenAI 展現出的實力越大,外界對它的擔憂和争議也會越多。自 ChatGPT 爆火,輿論對 AI 的邊界應該設在哪裏的争議就沒有停下來。從文字到圖片、從圖片到視頻…… AI 以假亂真變得越來越難以識别。按照現在的進度,AI 生成從二維進入三維世界大概率隻是時間上的早晚問題。
新的一片天空已然拉開大幕,AI 行業思考如何在激烈的市場競争中占據一席之地固然重要,但更重要的是得處理好人類和 AI 的倫理規範。
AI 可以生成虛幻的數字影像世界,但監管它的規則,還是由人類來制定的。