新智元報道
編輯:桃子
【新智元導讀】谷歌團隊推出「通用視覺編碼器」VideoPrism,在 3600 萬高質量視頻字幕對和 5.82 億個視頻剪輯的數據集上完成了訓練,性能刷新 30 項 SOTA。
AI 視頻模型 Sora 爆火之後,Meta、谷歌等大廠紛紛下場做研究,追趕 OpenAI 的步伐。
最近,來自谷歌團隊的研究人員提出了一種通用視頻編碼器—— VideoPrism。
它能夠通過單一凍結模型,處理各種視頻理解任務。
論文地址:https://arxiv.org/pdf/2402.13217.pdf
比如,VideoPrism 能夠将下面視頻中吹蠟燭的人分類、定位出來。
視頻 - 文本檢索,根據文本内容,可以檢索出視頻中相應的内容。
再比如,描述下面視頻——一個小女孩正在玩積木。
還可以進行 QA 問答。
- 她放在綠色積木塊上方積木的是什麽顔色?
- 紫色。
研究人員在一個異構語料庫對 VideoPrism 進行了預訓練,包含 3600 萬高質量視頻字幕對和 5.82 億個視頻剪輯,并帶有噪聲并行文本(如 ASR 轉錄文本)。
值得一提的是,VideoPrism 在 33 項視頻理解基準測試中,刷新了 30 項 SOTA。
通用視覺編碼器 VideoPrism
當前,視頻基礎模型(ViFM)有巨大的潛力,可以在龐大的語料庫中解鎖新的能力。
雖然之前的研究在一般視頻理解方面取得了很大進展,但構建真正的「基礎視頻模型」仍然是一個難以實現的目标。
對此,谷歌推出了一種通用視覺編碼器—— VideoPrism,旨在解決廣泛的視頻理解任務,包括分類、本地化、檢索、字幕和問答(QA)。
VideoPrism 對 CV 數據集,以及神經科學和生态學等科學領域的 CV 任務進行了廣泛評估。
通過使用單一凍結模型,以最小的适應度實現了最先進的性能。
另外,谷歌研究人員稱,這種凍結編碼器設置同時遵循先前研究,并考慮了其實際實用性,以及高計算和微調視頻模型的成本。
設計架構,兩階段訓練法
VideoPrism 背後的設計理念如下。
預訓練數據是基礎模型(FM)的基礎,ViFM 的理想預訓練數據,是世界上所有視頻的代表性樣本。
這個樣本中,大多數視頻都沒有描述内容的并行文本。
然而,如果訓在這樣的文本,它就能提供有關視頻空間的無價語義線索。
因此,谷歌的預訓練策略應主要關注視頻模式,同時充分利用任何可用的視頻文本對。
在數據方面,谷歌研究人員通過彙集 3600 萬高質量視頻字幕對,以及 5.82 億視頻剪輯與噪聲并行文本(如 ASR 轉錄、生成的字幕和檢索到的文本)來近似建立所需的預訓練語料庫。
在建模方面,作者首先從所有不同質量的視頻 - 文本對中對比學習語義視頻嵌入。
随後,利用廣泛的純視頻數據,對語義嵌入進行全局和标記提煉,改進了下文所述的掩碼視頻建模。
盡管在自然語言方面取得了成功,但由于原始視覺信号缺乏語義,掩碼數據建模對于 CV 來說仍然具有挑戰性。
現有研究通過借用間接語義(如使用 CLIP 引導模型或分詞器,或隐含語義來應對這一挑戰)或隐性推廣它們(比如标記視覺 patches),将高掩碼率和輕量級解碼器結合。
在上述想法的基礎上,谷歌團隊根據預訓練數據采用了兩階段方法。
在第一階段,進行對比學習,使用所有視頻文本對,将視頻編碼器與文本編碼器對齊。
根據先前的研究,谷歌團隊最小化批中所有視頻文本對的相似性得分,進行對稱交叉熵損失最小化。
并使用 CoCa 的圖像模型初始化空間編碼模塊,并将 WebLI 納入到預訓練中。
在計算損失之前,視頻編碼器的特征會通過多頭注意力彙集池(MAP)進行聚合。
這一階段允許視頻編碼器從語言監督中學習豐富的視覺語義,由此産生的模型爲第二階段訓練提供語義視頻嵌入。
第二階段,繼續訓練編碼器,并進行了兩項改進:
- 模型需要根據未掩碼的輸入視頻 patches,來預測第一階段的視頻級全局嵌入和 token 式嵌入
- 編碼器的輸出 token 在傳給解碼器之前,要進行随機洗牌,以避免學習捷徑。
值得注意的是,研究人員的預訓練利用了兩個監督信号:視頻的文本描述,以及上下文自監督,使 VideoPrism 能夠在以外觀和動作爲中心的任務上表現出色。
事實上,之前的研究表明,視頻字幕主要揭示外觀線索,而上下文我監督有助于學習動作。
實驗結果
接下來,研究人員在廣泛的以視頻爲中心的理解任務上評估 VideoPrism,展現其能力和通用性。
主要分爲以下四類:
( 1 ) 一般僅視頻理解,包括分類和時空定位
( 2 ) 零樣本視頻文本檢索
( 3 ) 零樣本視頻字幕和質量檢查
( 4 ) 科學領域的 CV 任務
分類和時空定位
表 2 顯示了 VideoGLUE 上的凍結骨幹的結果。
在所有數據集上,VideoPrism 都大幅優于基線。此外,将 VideoPrism 的底層模型大小從 ViT-B 增加到 ViT-g 可以顯着提高性能。
值得注意的是,沒有基線方法能在所有基準測試中取得第二好的成績,這表明以前的方法可能是針對視頻理解的某些方面而開發的。
而 VideoPrism 在這一廣泛的任務上持續改進。
這一結果表明,VideoPrism 将各種視頻信号整合到了一個編碼器中:多種粒度的語義、外觀與運動線索、時空信息以及對不同視頻源(如網絡視頻與腳本表演)的魯棒性。
零樣本視頻文本檢索和分類
表 3 和表 4 分别總結了視頻文本檢索和視頻分類的結果。
VideoPrism 的性能刷新多項基準,而且在具有挑戰性的數據集上,VideoPrism 與之前的技術相比取得了非常顯著的進步。
基礎模型 VideoPrism-B 的大多數結果,實際上優于現有的更大規模模型。
此外,VideoPrism 與表 4 中使用域内數據和額外模态(例如音頻)預訓練的模型相當,甚至更好。這些在零樣本檢索和分類任務中的改進體現了 VideoPrism 強大的泛化能力。
零樣本視頻字幕和質量檢查
表 5 和表 6 分别顯示了,零樣本視頻字幕和 QA 的結果。
盡管模型架構簡單且适配器參數數量較少,但最新模型仍具有競争力,除 VATEX 外,在凍結視覺和語言模型的方法中名列前茅。
結果表明,VideoPrism 編碼器能夠很好地推廣到視頻到語言的生成任務。
科學領域的 CV 任務
通用 ViFM 在所有評估中使用共享的凍結編碼器,其性能與專門用于單個任務的特定領域模型相媲美。
尤其是,VideoPrism 通常表現最好,并超越了具有基本規模模型的領域專家模型。
擴展到大規模模型可以進一步提高所有數據集的性能。這些結果表明 ViFM 有潛力顯著加速不同領域的視頻分析。
消融研究
圖 4 顯示了消融結果。值得注意的是,VideoPrism 在 SSv2 上的持續改進表明,數據管理和模型設計工作在促進視頻中的運動理解方面的有效性。
盡管對比基線已經在 K400 上取得了有競争力的結果,但所提出的全局蒸餾和 token 洗牌進一步提高了準确性。
參考資料:
https://arxiv.org/pdf/2402.13217.pdf
https://blog.research.google/2024/02/videoprism-foundational-visual-encoder.html