北大聯合騰訊打造了一個多模态 15 邊形戰士!
以語言爲中心," 拳打腳踢 " 視頻、音頻、深度、紅外理解等各模态。
具體來說,研究人員提出了一個叫做LanguageBind的多模态預訓練框架。
用語言作爲與其它模态之間的紐帶,凍結語言編碼器,然後用對比學習方法,将各個模态映射到一個共享的特征空間,實現多模态數據的語義對齊。
使用這種方法,模型在 5 個數據集上的性能拿下新 SOTA,在 15 個 zero-shot 檢索等任務中取得了顯著的性能提升,全面超越 ImageBind、OpenCLIP。
将各模态與語言綁定
LanguageBind 包含三個部分:
多模态編碼器(Multi-modal Encoders),語言編碼器 ( Language Encoder ) ,以及多模态聯合學習 ( Multi-modal Joint Learning ) 。
先來看多模态編碼器部分。
除了語言之外的其它模态,研究人員使用 24 層、1024 維的視覺Transformer,具有 14 的 Patch 大小。編碼器是從 OpenCLIP-large 初始化的。
深度和紅外被視爲 RGB 圖像,在通道維度上複制 3 次與 RGB 圖像對齊。
按照 ImageBind 的方式,音頻數據被轉換爲持續 10 秒(128 個 mel-bins)的頻譜圖,并進行重複和填充。
Patch masking
爲了解決在編碼器中處理所有 Token 的低效問題,研究人員将圖像分成補丁,并通過 Mask 獲取一小部分圖片序列,按照 MAE 的方法進行。
LoRA fine-tuning
同時使用 LoRA 技術來加速微調。對于具有權重矩陣 W0 ∈ Rd × k 的模态編碼器,在學習新的權重矩陣 BA 時,保持權重矩陣 W0 不變。
Modality extending
将 LanguageBind 方法擴展到多個(N 個)模态的第一步是将數據處理成令牌序列。随後,參數将從 OpenCLIP 進行初始化。然後通過令牌屏蔽和 LoRA 微調來訓練不同模态的編碼器,同時保持語言編碼器凍結。最後,将該模态與語言特征空間對齊。
再來看看語言編碼器以及多模态聯合學習部分。
對于語言編碼器,研究人員使用了一個 12 層的 transformer 模型,維度爲 768,初始化來源于 OpenCLIP。
對于給定的文本,他們首先使用 BPE 分詞器将單詞分割成相對常見的子詞。每個子詞對應一個唯一的标記,這些标記在一個詞嵌入層内嵌入。最終,這些标記被語言編碼器編碼,以獲得文本對數:
其中 L 表示序列的長度。爲了确保跨不同模态的對齊,研究人員采用了對比學習原則。
這種方法的目标是增加配對數據的相似性,将它們帶到相同的語義空間,同時減小不配對數據的相似性。研究人員利用對比學習将各個模态與語言綁定在一起。
構建高質量數據集
此外,研究人員還創建了一個名爲 "VIDAL-10M" 的高質量數據集,其中包含1000 萬個具有對齊視頻 - 語言、紅外 - 語言、深度 - 語言、音頻 - 語言的數據對,是第一個具有深度和紅外模态的大規模視頻多模态數據集。
數據集構建方法如下:
△VIDAL-10M 構建框架
第一步是生成搜索詞數據庫,這個過程中,研究人員設計了一種獨特的搜索詞獲取策略,利用來自各種視覺任務數據集的文本數據,包括标簽和标題,以構建具有豐富視覺概念和多樣性的視頻數據集。
第二步是從互聯網收集相關視頻和音頻,并進行一系列過濾處理,以确保數據集的質量和準确性。
這個過程中,研究人員使用了多種過濾方法,包括基于文本的過濾、基于視覺與音頻的過濾,以确保數據集中的視頻和音頻與搜索詞相關且質量高。
第三步是進行紅外和深度模态生成,以及多視角文本生成和增強。
在空間信息增強方面,研究人員采用了 OFA 模型生成多個關鍵幀描述,以提升視頻内容的空間表達質量。
同時,在時間信息增強方面,将視頻内容、标題以及 Hashtag 标簽輸入到 mPLUG-owl 模型中,以獲取更爲精煉和豐富的時間維度描述。
最後,研究人員運用 ChatGPT 模型對文本描述進行進一步細化和增強。
綜合而言,多視角文本增強涵蓋了标題、标簽、關鍵幀描述以及視頻描述等多個組成部分,爲視頻内容提供了全面且詳盡的描述。
多個測試拿下 SOTA
在測試階段,大量的實驗驗證了 VIDAL-10M 數據集和 LanguageBind 方法的有效性,在視頻、音頻以及其它模态理解任務中取得了顯著的性能。
LanguageBind 在四個數據集上都性能拿下 SOTA。
在 MSR-VTT 上比 InterVideo 方法高出 1.9%,在 MSVD 上比 InterVideo 高出 8.8%,在 DiDeMo 上比 InterVideo 高出 6.3%,在 ActivityNet 上比 InterVideo 高出 4.4%。
值得注意的是,InterVideo 采用了更廣泛的訓練數據,正表明 LanguageBind 的有效性。
△Zero-Shot 視頻 - 文本檢索結果
視頻 - 語言、紅外 - 語言、深度 - 語言和音頻 - 語言 Zero-Shot 分類,在所有數據集上的準确率均優于 ImageBind、OpenCLIP:
Zero-Shot 音頻 - 語言檢索性能同樣優越:
論文鏈接:https://arxiv.org/pdf/2310.01852.pdf