本文來自微信公衆号:字母榜(ID:wujicaijing),作者:趙晉傑、馬舒葉,編輯:趙晉傑,題圖來自:視覺中國
Sora 現身近一個月,卻未能在國内掀起如同 ChatGPT 時期的緊追不舍之态。
科技大廠仍停留在内部探索、研發 Demo 的階段:字節推出 AI 生成視頻産品 Boximator,騰訊研發了視頻生成模型 VideoCrafter,百度發表了統一模式視頻生成系統 UNiVG。至于究竟何時會推出 " 中國版 Sora",大廠用靜悄悄回應着外部期待。
恒業資本創始合夥人江一告訴字母榜,投入産出比或将是困擾國内大模型玩家選擇跟進的一大因素。在追趕 Sora 之前,目前在對話大模型領域尚處在 GPT-3.5 的國内頭部玩家,對于是否要追趕上 GPT-4 的水平," 實際上他們也都有擔憂:一方面想要證明自身價值,至少要做到 Meta 開源模型 Llama 2 的水平;另一方面,Meta 新一代開源模型 Llama 3 即将發布,屆時萬一投入重金後的自研模型,水平不及 Llama 3 乃至遭遇 OpenAI 自身的開源模型競争,很可能導緻前期投資‘竹籃打水一場空’。"
高企的成本,不僅困擾着大模型訓練廠商推出 Sora 的步伐,而且同樣阻礙着創業者率先體驗 Sora 的熱情。
在 ChatGPT 引爆新一輪 AI 應用熱潮後,定位桌面機器人的小麗智造創始人兼 CEO 胡捷,一度找上國内某大廠商談合作,希望将其大模型能力嵌入自家硬件。不過,在前者報出的數百萬元合作費用面前,胡捷最終選擇了國内一家二線大模型廠商,費用降低了近乎十分之一。
需要更多算力支持的視頻大模型 Sora,其應用成本更是胡捷這類初創公司難以承擔的代價,等待越來越多國産平替方案的出現,可能是更具性價比的選擇。
除了用不起之外,Sora 在視頻生成方面存在的精确度等 Bug,也讓一些支付得起 C 端使用成本的創業者,不敢輕易替換掉人工。
坐擁百萬粉絲的上海市錦天城律師事務所律師候朝輝,以法律博主的身份運營着兩檔視頻對話欄目《知 V 見》和《披荊斬棘的律師》,其視頻時長在 10-30 分鍾之間。爲了保證長視頻的信息精确度和畫面精緻感,候朝輝以 15000 元月薪,雇傭了一個專業剪輯師。
Sora 出現後,候朝輝并沒有下意識覺得可以每月節省 15000 元成本了," 我不會自己去學,肯定讓剪輯師去學,他如果學會這套 AI 工具,就可以将效率變現,接更多活,賺更多錢。"
一
ChatGPT 爆火之後,胡捷開始有了将大模型對話能力融入自家産品中的想法,嘗試打造一個桌面機器人結合類 ChatGPT 的新交互方式。
"(用戶)語音對話的過程中,ChatGPT 的生成過程是以一個個點的形狀呈現,我們借助屏幕爲其配備了一個對應口型的虛拟人形象,可以把 ChatGPT 吐回來的文字,讓虛拟人開口講出來。" 胡捷說道。
爲了實現上述意圖,胡捷首先找到了一家自研大模型的國内大廠,希望直接接入對方的對話大模型産品,但後者報了一個 300 萬元左右的合作價格,還設置了終端使用量要達到過萬台的門檻。
對于這家去年才剛剛成立、初始團隊在 10 人左右的初創企業而言,無論是大廠給出的報價,還是設備出貨量要求,都超出了胡捷能夠承受的範圍。
退而求其次,胡捷最終選擇了國内一家二線大模型廠商,後者按年收費,報價隻有幾十萬元,且在定制開發上配合度更高," 盡管大模型能力沒那麽強,但是能滿足我們初期的要求。而且開放性比較強,允許我們接入第三方大模型,他們提供開發對接服務。"
Sora 引爆新一輪大模型熱議後,胡捷們也開始等待國内平替的到來。但平替究竟何時會來,卻不像 ChatGPT 時期那麽有确定性了。
在江一看來,國内大模型廠商想要追趕 OpenAI,保持一個相對領先優勢,在資源投入上需要優先考慮總成本領先,即能否用比競争對手低的成本,訓練出足以媲美行業頭部水平的大模型,其次才是基于數據和場景打造差異化。
在推動大模型性能不斷叠代過程中,其所需要的算力等各類資源也呈指數級增長。ChatGPT 成功運行的背後,最少需要一萬張英偉達 GPU 提供算力。叠代到 GPT-4 後,其所需的英偉達 GPU 數量被爆超過了 2 萬張,價值達數億美元。
面對越拉越大的投入産出比,在江一看來,國内大模型廠商擔憂的,不是能不能做出 Sora,而是投入重金研發後,做着做着突然被矽谷的開源模型突襲," 你的價值就幾乎歸零了。"
二
對于那些直接付費使用 C 端大模型産品的創業者而言,盡管免去了用不起的煩惱,但在大模型生成内容的 " 幻覺 " 問題尚未解決之前,想讓他們跳過人工成本,自己用上 Sora,還有點難。
專注長視頻創作的候朝輝,爲了确保畫面的精确和精緻感,平時需要用到專業相機拍攝,大容量的視頻素材使得剪映一類的傻瓜式剪輯軟件,根本無法滿足需求,日常剪輯隻能用達芬奇等專業軟件,這也迫使他以每月 15000 元的價格,在上海雇用了一個專職剪輯師,保證一個月能剪出兩條視頻。
除此之外,候朝輝還會不定時發布訪談視頻,後期剪輯則以一條 3000 元的價格外包了出去。
ChatGPT 時期延續下來的内容不準确、部分數據陳舊等問題,在采取同源技術架構的 Sora 身上也難以幸免。在候朝輝看來,即便真等到 Sora 公測那一天,也是讓剪輯師去學,而不是自己去學習如何使用,"(說到底)這個工具還是要有人去操作,它很難在短期内把一個人淘汰掉,更多可能帶來效率的提升,然後剪輯師就可以接更多活,賺更多錢。"
即便是被外界視爲影響最大的遊戲影視領域,Sora 的實際應用效果也存疑。
在遊戲行業,哪怕是獨立遊戲,都不存在用不起 AI 工具的情況。但 AI 究竟能發揮多大效用,則是另一回事。獨立遊戲制作人阿圖(化名)曾經期待用 AI 繪圖,減輕長期占遊戲行業重頭支出的遊戲畫師的工作量,但是真的讓 AI 畫 " 秦王繞柱 ",結果出來的效果是 " 秦王在跳鋼管舞 "。
Sora 演示效果看起來很厲害,但阿圖擔憂的另一個點在于,制作者還要考慮市場是否買賬," 類 Sora 的 AI 工具大量應用在遊戲行業,不僅要考慮技術本身的完善程度,還要考慮市場的反應。在消費心理上,用戶是否認可制作方在遊戲中大規模地使用 Sora,會不會覺得這是在偷工減料?對于部分用戶來說,他願意爲了畫師的畫工,特效師的構思付費,但用 AI 生成的文本、畫面,并非是畫師設計的,這算不算是在糊弄消費者?在這一點上,目前許多科技媒體調研時,都似乎忽略了市場的反映,而我認爲這恰恰是很重要的。"
基于上述種種擔憂,阿圖的團隊,即使使用 AI 工具,更多也隻是做一些邊角料的工作,比如畫一些概念,做一些配色嘗試,目前還沒達到可以替代部分崗位的應用程度。
獨立導演杜蘭馨甚至比阿圖更進一步,基于 AI 制作帶來的人員投入和精力問題,在其影視公司内,他沒有嘗試引入 AI 制作," 如果把時間和精力耗費在 AI 如何應用上,可能還完不成公司接下的案例。"
在杜蘭馨看來,如同用文生圖産品一樣,要想應用類 Sora 的工具,影視從業者還需要懂 AI 語言,掌握一定的技巧,才能生成想要的視頻效果。" 但是目前的訓練,工作量似乎并沒有被消減,寄望用 AI 減少人力成本的初衷可能隻是想象中的美好,實際工作量從自己繪圖,變成了重複下達指令訓練 AI 繪圖,在這個過程中,不隻是人掌握了技巧,也是 AI 訓練了人。"
杜蘭馨認真算了一筆賬,以影視公司剪輯師爲例,假設此前負責初級剪輯的剪輯師,月薪 8000 元,主要工作是收集整理素材,如果可以用 Sora 代替初剪,就可以節省這部分支出。但同時,公司需要把文生視頻的指令輸入工作交給高級剪輯師,那麽就要上調高級剪輯師的工資。最終隻有類 Sora 的工具應用節約成本,足以抵消上調薪資帶來的支出,影視公司才不會虧本。
三
Sora 在視頻生成方面的各類 Bug,同樣是 OpenAI 遲緩推出的重要原因之一。在官網介紹中,OpenAI 提醒道,Sora 可能難以準确模拟複雜場景的物理原理,并且可能無法理解因果關系,還可能混淆提示的空間細節,例如混淆左右,并且可能難以精确描述随着時間推移發生的事件,例如遵循特定的相機軌迹。
根據部分拿到内測名額的博主分享,Sora 在物理方面遇到的困難,在表現腿部特征,或者行走方面,尤爲明顯,如經常生成雙腿交叉和相互融合的畫面。
導緻 Sora 在内容生成上出現各類 " 幻覺 " 的背後技術動因,在與其采用了與 ChatGPT 一樣的 Transformer 架構。
這也是胡捷将 ChatGPT 視爲一個革命性産品,而将 Sora 的到來,認爲是一種延續性創新的原因之一。"Sora 出來之後,你可以認爲是在鐵軌上運行的火車,變成了高鐵。Claude 3 的發布,同樣如此,給我的感覺就是速度由原來的 300km/h,提升到了 350km/h、400km/h,隻是沿着既定路線的彼此較勁,而非颠覆性的突破。"
江一同樣對 Sora 可能給行業帶來的所謂 " 革命性沖擊 ",持懷疑态度。在他看來,Sora 再更新兩三個版本,可能就會觸摸到技術叠代的天花闆,然後慢慢被後來者追平差距。就像之前國内的語音翻譯大戰,一開始領先的科大訊飛,最後其實跟搜狗之間翻譯結果差不太多," 從商業角度考量,大模型這場混戰中,廠商也應該優先追求最小可行化産品,先商業化,然後再在往前走的路途中盡善盡美。"
過去一年中,上述競争姿态已經在對話大模型上上演過一次。随着越來越多玩家推出大模型部署服務,在日益激烈的商業化比拼中,大模型私有化部署的價格," 從一開始的幾千萬報價,降到一千多萬,後來又降到幾百萬,乃至 100 萬,直到現在降到了 50 萬。" 江一表示。
本文來自微信公衆号:字母榜(ID:wujicaijing),作者:趙晉傑、馬舒葉,編輯:趙晉傑