本文來自微信公衆号:字母榜(ID:wujicaijing),作者:趙晉傑,題圖來自:視覺中國
Sora 的橫空出世,對張一鳴來說,亦喜亦憂。
被 OpenAI 的 ChatGPT 震撼過一輪的 AI 大模型行業,又一次被這家公司推出的首個視頻生成模型 Sora 震撼了一把。
不同于 Runway、Pika 等僅能生成不足 10 秒,且鏡頭視角單一、内容高度失真的視頻,Sora 的視頻生成長度不僅突破到了 60 秒,且能實現單視頻的多角度鏡頭切換,還能最大限度還原現實世界的真實場景。
在 ChatGPT 上被驗證過的模型性能縮放法則(scaling laws),被 OpenAI CEO 阿爾特曼移植到視頻領域後,被證明其 " 大力出奇迹 " 的策略仍然有效,即增加模型的大小将繼續提高性能。ChatGPT 所爲人稱贊的 " 智能湧現 " 特征,再一次出現在 Sora 身上。
面對來自 Sora 的 " 降維打擊 ",AI 視頻領域的創業者中,有的如 Runway CEO 克裏斯托瓦爾 · 巴倫蘇埃拉一樣,做好了 "Game On" 的準備,有的如 Pika 創始人郭文景一樣,開始籌備對标 Sora 的新産品,也有人如 Stability AI CEO 埃馬德 · 莫斯塔克一樣,不由感慨 " 阿爾特曼真是一個魔術師 ",并将 Sora 視爲 AI 視頻界的 GPT-3 時刻。
但對字節跳動來說,這未必是個好消息,因爲 Sora 所處的視頻生成賽道,正是眼下字節跳動旗下剪映所瞄準的 AI 創新方向。2 月份從抖音轉崗剪映後,據界面新聞報道,抖音前 CEO 張楠即将推出一個 AI 生圖和視頻的産品。
正打算在 AI 生成視頻領域大幹一番的張楠,還沒等到産品落地的那一刻,其内部再創業的計劃,便率先遭遇了 Sora 的當頭一擊。
OpenAI 是張楠決心押注 AI 再創業的催化劑。2022 年 OpenAI 旗下文生圖模型 DALL-E 2 的發布,讓張楠首次直觀感受到 AI 圖像生成,給傳統内容創作方式所帶來的颠覆式變革威力,這既是字節跳動全球 CEO 梁汝波口中 " 會産生新的創作平台 " 的機會,也是促成張楠轉崗剪映的原因之一。
生成式 AI,還是打開字節跳動增長天花闆的一次必要嘗試。2023 年公開信中,張一鳴提到,字節跳動無法錯過 AGI(通用人工智能),并指出 AGI 是抖音、TikTok 在全球發現新的增長機遇不可或缺的夥伴," 它可以解決字節跳動的第二曲線增長困境。"
2019 年剪映的出現,幫助抖音内容生态從偏向 PGC(專業機構生産内容)轉向 UGC(用戶生産内容),大大降低用戶創作門檻。如今,随着平台内容生态轉向 PUGC 融合态,其對用戶創作視頻的成本和整體質量,又提出了新的要求。AI 生成視頻産品的出現,則對盡可能拉低每一個普通人創作視頻的門檻,提供了一種現實可能性,抖音乃至 TikTok,都有望借此在内容創作者數量上迎來新的爆發。
值得一提的是,AI 視頻生成更是一個頗具前景的創業賽道。截至 2023 年底,該賽道已經湧現出一批獨角獸公司:Midjourney 估值 100 億美元,Stability AI 估值 40 億美元,Runway 估值 15 億美元。年初爆火出圈的新貴 Pika,成立時間不足一年,其估值已經達到 2.5 億美元。
但在 Sora 的突然襲擊之下,留給張一鳴和張楠孵化下一個 AI 視頻生成獨角獸的時間,越發緊張了。
一
Sora 亮相之前,字節内部也在研發 AI 生成視頻産品。
1 月份,字節跳動研究人員在 arXiv 上發表了一篇論文,其中介紹了字節正在開發的一款文本生成視頻的模型,被命名爲 MagicVideo-V2,其通過集成多個模塊,包括文本到圖像模型、視頻運動生成器、參考圖像嵌入模塊和插值模塊,實現從文字到視頻的自動化生成。
MagicVideo-V2 想要解決的問題,是 Runway、Pika 等在生成視頻中所表現出來的保真度不高、運動不自然、分辨率不高、風格不多樣等。
字節旗下産品剪映原有的 " 圖文成片 " 功能模塊,在進行文生視頻轉換過程中,同樣面臨上述難題的拷問。
在等待 MagicVideo-V2 完善研發,從 demo 走向量産上線之際,張楠在過去一個月多的用戶訪談中,收集到了更多來自一線創作者對 AI 生成視頻産品的不滿和期待,其中之一就包括部分創作者 " 爲了更好表達自己的想法,幾乎無法用一個産品完成所有的創作,要橫跨幾個産品之間,用複雜的編輯和交互流程,才能完成他們的表達。"
去年 8 月,UP 主數字生命卡茲克制作的一條爆款視頻《流浪地球 3 預告片》,便先後運用了 MidJourney 和 Runway 等多款産品,且經曆了長達 5 天的後期剪輯拼接。
造成 UP 主數字生命卡茲克創作困難的主要原因,便出在 AI 軟件不夠智能和便捷上。Sora 出現之前,業内文生視頻的默認方式是,隻能輸出單一、且往往是靜止視角的短視頻片段,畫面背景還多呈現賽博朋克風。
Sora 出現之後,文生視頻領域的舊識被打破,不管多麽複雜的視角、場景切換,都隻用通過單一提示詞便可生成,在兼顧便捷性的同時,最大限度保證了生成内容與真實物理世界的相關性。
Sora 提示詞示例 圖源:官網截圖
字節和張楠規劃中 AI 視頻所應具備的更高保真度生成效果、更清晰生成畫面、更順暢自然的邏輯理解能力等,率先被 Sora 一一實現。
需要注意的是,尚未對外開放測試的 Sora,眼下還存在諸多不完善之處,按其官方說法," 仍然處于世界模型研究應用的初期階段。"
Meta 首席科學家楊立昆便直接質疑 Sora:" 僅憑能夠根據提示生成逼真的視頻,并不能說明系統真正理解了物理世界。"
OpenAI 在官網介紹中也提醒道,Sora 可能難以準确模拟複雜場景的物理原理,并且可能無法理解因果關系,還可能混淆提示的空間細節,例如混淆左右,并且可能難以精确描述随着時間推移發生的事件,例如遵循特定的相機軌迹。這些缺陷可能導緻 Sora 生成一些不合邏輯的視頻,如一個人在跑步機上跑錯方向。
這些尚未解決的 Bug,是 OpenAI 決定暫未全面開放 Sora 的原因之一。如今,OpenAI 正選取部分用戶展開内測,以評估關鍵領域的潛在危害或風險,以期獲得寶貴反饋,進而推動模型進步。
二
ChatGPT 發布後,外界開始意識到 AGI 時代有了實現的可能性,Sora 等視頻生成模型,無疑是推動 AGI 到來的重要加速器。
OpenAI 直接在官網上寫道:"Sora 爲能夠理解和模拟真實世界的模型提供了基礎,我們相信這一能力将是實現 AGI 的重要裏程碑。"
想要借助視頻生成模型,推動 AGI 帶來的不止 OpenAI 一家公司。去年 12 月,Runway 提出要開發通用世界模型(General World Model),用旗下的視頻生成 Gen-2 來模拟整個世界," 我們相信,人工智能的下一個重大進步将來自理解視覺世界及其動态的系統,這就是爲什麽我們要圍繞通用世界模型開始一項新的長期研究工作。"
理解現實世界的物理法則,成爲通往 AGI 的必經之路。360 創始人周鴻祎在點評 Sora 時直言,一旦 AI 接上攝像頭,把現存所有視頻都看一遍,其對世界的理解能力将遠遠超過文字學習。" 這就離 AGI 真的不遠了,不是 10 年 20 年的問題,可能一兩年很快就可以實現。"
正是在 AGI 相關概念刺激之下,AI 生圖和視頻領域的垂類大模型公司,估值迎來飙升,出現了 Midjourney、Stability AI、Runway 等一批明星獨角獸創業公司。
具體到字節跳動的業務層面,圖片 / 視頻生成還能幫助提效字節的商業化需求,如幫助字節廣告客戶低成本、便捷地制作視頻。有字節人士告訴晚點 PostLate,字節廣告客戶投放總成本裏有 10%-20% 爲視頻制作成本,從去年開始,字節已在開發一些相關産品幫廣告客戶壓縮這部分投入。
盡管在推出類似文生視頻産品方面落後一步,但對張楠來說,反過來也迎來了一個摸着 Sora 過河的機會。
ChatGPT 亮相之前,算法方面的短闆,一度是行業研發對話大模型的主要障礙之一。人工智能專家丁磊博士解釋道,部分大模型創業公司 " 還不是那麽會訓練大模型……如果訓練方法錯的話,你有再多的 GPU 也沒用。"
在追趕 Sora 過程中,Pika 創始人郭文景提到,目前生成式視頻發展的一個重要限制是算法的成熟度," 語言對話模型大家已經知道大概的方法,算法相對比較成熟了。但視頻之前還沒有很好的算法。"
Sora 的發布,無疑再次給行業提供了一個行之有效的解題思路,也給郭文景和張楠這樣的同領域創業者,提供了一條成熟的算法借鑒路線。
三
随着 Sora 正式亮相,在上一波語言對話模型上落後的字節,在視頻領域再次陷入被動追趕窘态。
2022 年 11 月 ChatGPT 發布之後,百度、阿裏等國内大廠相繼在去年三四月份推出自研大模型文心一言和通義千問,但直到 8 月份,字節才對外亮相了雲雀大模型。
動作遲緩的後果之一是,當文心一言月活已經破億後,字節同類産品 " 豆包 " 的月活,還不足千萬。
在 1 月底的新一期 All Hands(員工面對面)上,梁汝波着重以 AI 進展緩慢說明公司正在變得遲鈍的現況,稱 " 公司層面的半年度技術回顧,直到 2023 年才開始考慮 GPT,而業内做得比較好的大模型創業公司,都是在 2018 年至 2021 年創立的。"
字節關注大模型并不算晚。據晚點 LatePost 報道,2020 年 6 月 OpenAI 發布 GPT-3 後,字節曾訓練了一個數十億參數的生成式語言大模型,由于參數規模有限,該模型生成能力一般,字節當時看不到它的商業化可能性,"ROI(投資回報率) 算不過來 ",這次探索便淺嘗辄止。
如今選派張楠這樣一員大将用 AI 改造剪映,被外界視爲是字節内部希望提速 AI 發展的一個信号。
但在完成内部調兵遣将之後,留給張楠的挑戰不隻是追趕時間上的緊迫,還有外部芯片斷供所帶來的算力荒難題。
去年 10 月份,英偉達旗下 A100、A800、H100、H800 和 L40S 等五種 GPU 芯片禁令正式生效。對于一衆國内大模型廠商而言,英偉達芯片的斷供,在客觀上成爲其追趕 ChatGPT 乃至 GPT-4 的最大阻力。
在縮放法則(scaling laws)指導下,阿爾特曼提出了芯片需求每三四個月就要翻一番的大模型時代 " 摩爾定律 "。這無疑再次拉高着張楠追趕 Sora 的門檻。
" 對于國内廠商而言,這種大力出奇迹的模式跑通之後,矽谷會進入更爲狂熱的算力軍備競賽。字節們的算力短闆會進一步放大。" 招商證券研究員劉枋說道。
參考資料:
《剪映全員信》張楠
《揭秘字節 AI 版圖:調集多位高管參戰,數款重磅産品内測》Tech 星球
《大廠大模型:久違的一把手工程》晚點 LatePost
《" 今天,所有 VC 的會上都在談 Sora"》投中網
《Sora 發布後,Pika 創始人獨家回應钛媒體:很振奮,我們将直接沖》钛媒體
本文來自微信公衆号:字母榜(ID:wujicaijing),作者:趙晉傑