抖音集團 CEO 官宣卸任,真是一石激起千層浪!
一方面,雖然字節高層要調整早有傳聞,但靴子落地依然讓人意外:爲什麽會是她?
要知道張楠,可是字節從零到一打造出抖音、火山等 UGC 視頻産品的大功臣。
另一方面,她下一步去的是一個抖音 " 配件 " 項目——剪映,并且以始終創業的狀态。
雖說變動如此突然,但其實在内部早有迹可循。
消息稱,過去一年張楠将大多數精力都放在剪映任務上,并且親自帶隊即将推出一個 AI 生圖和視頻的産品。
抛開外界各種對大廠組織調整的讨論,咱要是從技術和趨勢來看,張楠下一站,妥妥是今年的 AI 風口。
張楠親自帶隊剪映
春節前夕,張楠朋友圈官宣即将卸任 CEO 的決定,之後将更多精力放在剪映上。
不過之後,她還是繼續向字節跳動 CEO 梁汝波彙報。
在梁汝波内部信中指出,是 " 結合業務發展需要和個人意願 " 的原因,張楠不再擔任抖音集團 CEO,專注負責剪映業務。
對于接任者,他表示,目前抖音集團暫時還沒有新設 CEO 的計劃。
其中,韓尚佑作爲抖音總裁,會協同所有與抖音相關的主營業務
此番字節高層變動之後,據晚點統計,目前抖音已完成高層大調整。
此前抖音的産品和商業化分别由張楠和張利東領導,如今由張利東來統籌這兩大闆塊。
在此之前,抖音 BU 也完成了一系列的人員調動,比如字節商業化部門巨量引擎營銷副總裁陳都烨轉崗至抖音、抖音原增長負責人吳曉丹則轉崗剪映,抖音開放平台原負責人常坤加入抖音生活服務部門……
抖音爲什麽調整?
有網友将字節前段時間的年會結合了起來……
當時,梁汝波提到,目前字節最大的危機感就是組織平庸化," 字節該有的大公司病全有了 "。
但可能被忽略的是,如果從 AI 技術變革來看,字節正在面臨挑戰和機遇。這就是 AI 生成視頻,而且剪映似乎就是字節最好的容器。
剪映有着天生的 AIGC 場景優勢。
雖然上線時間不長,2019 年才正式上線,但依托于抖音,很快就成爲包括抖音在内的視頻内容創作者的利器。
消息顯示,截至 2021 年,剪映的月活用戶已經突破 1 億,是國内最大的移動視頻編輯産品。去年 11 月,剪映測試了一個名爲 "Dreamina"AIGC 工具。它能根據文字生成創意圖像。
UGC 視頻的一姐,現在去帶隊字節 AIGC 視頻的最前沿戰隊,或許也值得關注。
視頻生成,AIGC 的新戰場
相信使用過的朋友都能感受到,剪映其實就是個 " 大 AI"。
語音識别 / 生成、文本生成、虛拟人生成、AI 配音等等這些基本實用的 AI 功能暫且不說,并且還會時常更新。
比如就有貼心的小夥伴整理了最新版本的新功能,像時空穿越特效、古風穿越特效、文字轉視頻、主題(标題)變視頻、智能摳圖、視頻轉手繪等等。
除此之外,剪映還同 ChatGPT 合作,選擇他們的插件,一句話就可以做一條視頻,并且支持各種細節修改。
處在 AIGC 視頻生成風口的關鍵時刻,作爲國内乃至全球短視頻應用的頂流,無論是剪映、抖音還是背後的字節,這樣的機遇當然不容錯過。
而 AI 視頻領域争鬥變得愈加白熱化,是從 " 老大哥 "Runway 發布 Gen-2 以後開始的。
無論是初創團隊還是大廠,琳琅滿目的視頻生産工具如雨後春筍般競相發布。
在競賽的過程中,AI 視頻的畫質、細節、時長等指标,快速地進行着一次又一次地飛躍。
像 Stability、Runway 這樣的明星獨角獸,估值都已達到了 10 億美元量級,受到了谷歌等大廠的投資。
創立時間短一些的 Pika,估值也有 2 億美元,投資者中可以見到許多大佬的身影。
而在這些爆火的 AIGC 視頻應用背後,主要有三條技術路線。
按照出現的時間順序,首先是生成對抗網絡(GAN)和變分自編碼器(VAE)。
它們往往是通過非直接方式來生成視頻内容,比如将運動和内容分解、把前景(移動物體)和背景分離。
這類早期方案雖然在清晰度、連貫性和時長上都不盡如人意,但也起到了抛磚引玉的作用,AI 視頻生成也是被 GAN 帶火的。
△微軟視頻生成工具 N ü WA,早期版本基于 GAN 實現
進入新的階段,自回歸模型和擴散模型兩條路成爲了新的主流。
自回歸模型根據先前的幀來預測下一幀,不斷遞歸拼接,視頻較爲連貫自然,最典型的架構就是 Transformer。
2021 年,羅格斯大學的學者發表了首篇 Transformer 架構視頻生成工具的論文,并被 ICML 所收錄。
後來,新版本的 N ü WA 模型也從 GAN 切換到了 Transformer 架構。
擴散模型的概念則最早在 2015 年的 ICML 上被提出,但直到 2021 年下半年,"Stable Diffusion" 的前身 "Latent Diffusion" 才真正讓擴散模型火了起來。
它的基本原理是通過逐步添加噪聲和去除噪聲來生成圖像,生成圖像的真實性高、細節更爲清晰。
到 2022 年 4 月,擴散模型正式被谷歌應用到了視頻生成領域,推出了 Video Diffusion 模型成爲新的文生視頻 SOTA。
直到現在,AIGC 視頻領域的頭部選手,大多都已采用 Transformer 或擴散模型作爲底座。
而放眼 AI 視頻生成的戰場,不得不提的就是老牌廠商 Runway 了研發的 Gen-2 了。
Gen-2 生成視頻的效果已經克服了以往 " 一眼 AI" 的缺點,分辨率也達到了 4k,是衆多視頻生成工具中清晰度最高的。
時長上,Gen-2 可以一次支持 18 秒的長度,這在 AI 視頻生成工具中也是前所未有。
Runway 創始人兼 CEO Crist ó bal Valenzuela 更是在中表示,一個激動人心的新(創意)時代已經要開始了。
而在去年,Runway 也迎來了一位強悍的挑戰者——斯坦福華人博士郭文景(Demi Guo)休學創業做出的Pika。
它可以根據輸入的圖像或文本流暢地生成視頻,而且可編輯性強,指定視頻中的任意元素均可快速替換。
靠着 Pika 驚豔的效果,這家初創公司成立僅半年時,就新斬獲5500 萬美元(約 4 億人民币)融資。
其中個人投資者不乏各種大牛,如 Quara 創始人 Adam D ’ Angelo、Perplexity 的 CEO Aravind Srinivas、GitHub 前 CEO Nat Friedman 等等。
開源模型則有 Stable Diffusion 團隊推出的Stable Video Diffusion,支持生成約 3 秒的視頻,分辨率爲 576 × 1024。
除了這些專搞 AI 視頻的初創團隊,巨頭大廠們也紛紛參與進了這場戰争。
比如 Meta 于去年 11 月發布的 Emu Video,同樣支持 4K 畫質的視頻合成,在用戶評估中号稱打敗(當時的)Gen-2、Pika 等對手。
谷歌也在 12 月交出了自己的模型VideoPoet,它沒有用常用的擴散模型,還零樣本實現了 SOTA。
相較于此前一些模型,畫面更加穩定、動作更加逼真,清晰度也直線 up。
就連主要經營硬件産品的英偉達,也推出了基于擴散模型的視頻生成工具 PYoCo,并被 2023 年的 ICCV 大會所接收。
不僅國際市場上的鬥争火熱,國内這邊也同樣激烈。
比如今年 1 月,字節就推出了 AI 視頻生成模型MagicVideo-V2,支持 4K、8K 超高分辨率,測評效果超過 Gen-2、Pika 以及現有 AI 視頻生成工具。
有研究者對比了 MagicVideo-V2 和其他大牌工具的表現,以細節寫實能力爲例:
小男孩在公園的小路上騎着自行車,車輪踩在碎石上發出嘎吱嘎吱的聲音。
可以看出隻有 MagicVideo-V2 和 SVD 生成的視頻最貼合提示詞,但 MagicVideo 又以更真實的腳步動作勝過了 SVD。
(左:MagicVideo-V2,中:Stable Video Diffusion,右上:Pika,右下:Gen-2)
從 2013 年 VAE 誕生,到 2020 年被 Transformer 和擴散模型取代用了近 7 年,但新的模型蓬勃發展,不過才三年時間。
而像這樣 " 長江後浪推前浪 " 式地競相更新,更是最近這半年才有的事,這半年一個又一個模型相繼湧現的過程中,幾乎每個成果都可以說是颠覆性的。
在這樣的浪潮當中,抖音當然不想成爲被颠覆的一個,所以最好的方式,就是在被外部力量颠覆之前,實現自我颠覆。
字節把張楠從抖音一姐的位置換到剪映一姐,或許就是這個思路的一種反映。
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~