谷歌 Research Lead,負責 VideoPoet 項目的蔣路,即将加入 TikTok,負責視頻生成 AI 的開發。
谷歌 VideoPoet 項目 Research Lead,CMU 兼職教授蔣路的 Google Scholar 資料顯示已加入 TikTok。
最近,有傳聞 TikTok 招募了某篇論文的作者作爲北美技術部門負責人,研發能和 Sora 對抗的視頻生成 AI。
而蔣路 3 周前在 Linkedin 上發布了離職谷歌的消息,也向外界揭開了謎底。
他作爲谷歌 VideoPoet 項目的負責人,将離開 Google Research,不過會留在灣區,繼續視頻生成領域的工作。
「人才第一,數據第二,算力第三」,謝賽甯的 AI 突破「3 要素」,已經爲大廠在未來構建自己的 AI 護城河指明了方向。
而蔣路帶領谷歌團隊在去年年底推出了在技術路線上與 Sora 相似的視頻生成技術:VideoPoet,讓他成爲了世界上爲數不多的有能力構建最前沿 AI 視頻生成技術的科學家。
VideoPoet 在 Sora 發布之前就已經将 AI 視頻的前沿推進到了生成 10 秒長,一緻性非常強,動作幅度大且連貫的視頻。
而與此同時,他還是 CMU 的兼職教授,有非常豐富的科研經曆和成果。
蔣路這樣既有深厚的理論功底,又有最前沿大型項目的工程和管理經驗的複合型專家,自然成爲了大廠必争的 AI 基石型人才。
個人介紹
蔣路在 Google 擔任研究科學家和管理崗位,同時也是卡内基梅隆大學計算機科學學院語言技術研究所的兼職教授。
在 CMU,他不僅指導研究生的科研項目,還親自講授課程。
他的研究成果在自然語言處理(ACL)和計算機視覺(CVPR)等領域的頂級會議上屢獲佳績,還在 ACM ICMR、IEEE SLT 和 NIST TRECVID 等重要會議上獲獎。
他的研究對多款谷歌産品的開發和完善起到了至關重要的作用:包括 YouTube、Cloud、Cloud AutoML、Ads、Waymo 和 Translate 等。
這些産品每天服務全球數十億用戶。
除了上述這些内容以外,還有另一個側面能很好地說明蔣路學術水平的高度:他與衆多計算機視覺和自然語言處理領域的頂尖研究者都有過合作。
2017 至 2018 年期間,他是 Google Cloud AI 首批研究團隊的創始成員,由李佳博士和李飛飛博士親自挑選。
随後,他加入了 Google Research,與 Weilong Yang 博士(2019-2020)、Ce Liu 博士(2020-2021)、Madison Le(2021-2022)和 Irfan Essa 博士(2023)等人都有過合作。
此外,在卡内基梅隆大學讀博期間,他的論文由 Tat-Seng Chua 博士和 Louis-Philippe Morency 博士共同指導。2017 他在 Alexander Hauptmann 博士和 Teruko Mitamura 博士的幫助下成功畢業。
他在雅虎、谷歌和微軟研究院的實習時,得到了 Liangliang Cao 博士、Yannis Kalantidis 博士、Sachin Farfade、Paul Natsev 博士、Balakrishnan Varadarajan 博士、Qiang Wang 博士和 Dongmei Zhang 博士等人的指導。
從他在領英上的履曆可以看出,很多科技大廠都留有過他的足迹。
在 CMU 和 NSF 都有過實習經曆。
而在畢業之前,他在雅虎,谷歌,微軟都實習過。
他本科畢業于西安交通大學,研究生畢業于布魯塞爾自由大學,博士畢業于 CMU。
VideoPoet
他在谷歌帶領的團隊在去年底推出的 VideoPoet,已經用 Transformer 代替了傳統的 UNet,成爲 AI 視頻生成當時的 SOTA.
這項成就,也成爲了 TikTok 相中他最主要的原因。
相比起隻能生成小幅動作的 Gen-2,VideoPoet 一次能夠生成 10 秒超長,且連貫大動作視頻,可以說是實現了完全碾壓!
另外,VideoPoet 也并非基于擴散模型,而是多模态大模型,便可擁有 T2V、V2A 等能力,或将成爲未來視頻生成的主流。
相比起其他模型,谷歌的方法是将多種視頻生成功能無縫集成到單一的大語言模型中,而不依賴針對各個任務分别訓練的專用組件。
具體來說,VideoPoet 主要包含以下幾個組件:
- 預訓練的 MAGVIT V2 視頻 tokenizer 和 SoundStream 音頻 tokenizer,能将不同長度的圖像、視頻和音頻剪輯轉換成統一詞彙表中的離散代碼序列。這些代碼與文本型語言模型兼容,便于與文本等其他模态進行結合。
- 自回歸語言模型可在視頻、圖像、音頻和文本之間進行跨模态學習,并以自回歸方式預測序列中下一個視頻或音頻 token。
- 在大語言模型訓練框架中引入了多種多模态生成學習目标,包括文本到視頻、文本到圖像、圖像到視頻、視頻幀延續、視頻修複 / 擴展、視頻風格化和視頻到音頻等。此外,這些任務可以相互結合,實現額外的零樣本功能(例如,文本到音頻)。
VideoPoet 能夠在各種以視頻爲中心的輸入和輸出上進行多任務處理。其中,LLM 可選擇将文本作爲輸入,來指導文本到視頻、圖像到視頻、視頻到音頻、風格化和擴圖任務的生成
使用 LLM 進行訓練的一個關鍵優勢是,可以重用現有 LLM 訓練基礎設施中引入的許多可擴展的效率改進。
不過,LLM 是在離散 token 上運行的,這可能會給視頻生成帶來挑戰。
幸運的是,視頻和音頻 tokenizer,可以将視頻和音頻剪輯編碼爲離散 token 序列(即整數索引),并可以将其轉換回原始表示。
VideoPoet 訓練一個自回歸語言模型,通過使用多個 tokenizer(用于視頻和圖像的 MAGVIT V2,用于音頻的 SoundStream)來跨視頻、圖像、音頻和文本模态進行學習。
一旦模型根據上下文生成了 token,就可以使用 tokenizer 解碼器将這些 token 轉換回可查看的表示形式。
VideoPoet 任務設計:不同模态通過 tokenizer 編碼器和解碼器與 token 相互轉換。每個模态周圍都有邊界 token,任務 token 表示要執行的任務類型
相比于之前的視頻生成模型,VideoPoet 有這麽三個比較大的優勢。
一個是能生成更長的視頻,一個是用戶能對生成的視頻有更好的控制能力,最後一個則是 VideoPoet 還可以根據文本提示,生成不同的運鏡手法。
而在測試中,VideoPoet 也是拔得頭籌,碾壓了不少其它視頻生成模型。
文本保真度:
文本保真度的用戶偏好評級,即在準确遵循提示方面首選視頻的百分比
動作趣味性:
用戶對動作趣味性的偏好評級,即在産生有趣的動作方面,首選視頻的百分比
綜上可見,平均有 24-35% 的人認爲 VideoPoet 生成的示例比其他模型更加遵循提示,而其他模型的這一比例僅爲 8-11%。
此外,41%-54% 的評估者認爲 VideoPoet 中的示例動作更有趣,而其他模型隻有 11%-21%。
而有關未來的研究方向,谷歌研究人員表示,VideoPoet 框架将會實現「any-to-any」的生成,比如擴展文本到音頻、音頻到視頻,以及視頻字幕等等。