讓 AI 像人類一樣借助多模态線索定位感興趣的物體,有新招了!
來自人大高瓴 GeWu-Lab、北郵、上海 AI Lab 等機構的研究人員提出Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,視聽場景下的指代分割),讓 AI 能看、會聽,更懂真實物理世界。
相關論文已入選頂會 ECCV2024。
舉個例子,在下面這張圖中,機器如何準确定位真正在演奏樂器的人?
搞單打獨鬥肯定不行,但這正是已有研究正在做的。(各自從視覺、文本和音頻線索的角度出發)
視頻對象分割(VOS,Video Object Segmentation):通常以第一幀中的對象掩碼作爲參考,指導後續幀中特定對象的分割。(嚴重依賴于第一幀的精确标注)
視頻對象參考分割(Ref-VOS,Referring Video Object Segmentation):基于自然語言描述分割視頻中的物體,取代了 VOS 中的掩碼标注。(雖然更易于訪問,但能力有限)
視聽分割(AVS,Audio-Visual Segmentation):以音頻爲指導來分割視頻中發聲的物體。(無法應對不發聲的物體)
而新方法 Ref-AVS,整合了多個模态(文本,音頻和視覺)之間的關系來适應更真實的動态視聽場景。
這下,同時在唱歌和彈吉他的人也能被輕松找到了。
且同一段素材還能拿來反複用,找出正在發聲的吉他也不在話下。
與此同時,研究人員構建了一個名爲 Ref-AVS Bench 的數據集,并設計了一個端到端框架來高效處理多模态線索。
具體如下。
構建了數據集 Ref-AVS Bench
概括而言,數據集 Ref-AVS Bench 共有 40020 個視頻幀,包含 6888 個物體和 20261 個指代表達式(Reference Expression)。
每個數據都包含與視頻幀對應的音頻,并提供逐幀的像素級标注。
爲了确保所指代對象(Object)的多樣性,團隊選擇了包含背景的 52 個類别 , 其中 48 個類别的可發聲物體,以及 3 個類别的靜态、不可發聲物體。
在視頻收集過程中,所有視頻均來自油管并截取 10 秒。
在整個手動收集過程中,團隊刻意避免以下情況的視頻 :
a ) 包含大量相同語義實例的視頻;
b ) 有大量編輯和相機視角切換的視頻;
c ) 包含合成創作的非現實視頻。
同時,爲了提高與真實世界分布的一緻性,團隊挑選了有助于數據集内場景多樣化的視頻。
比如涉及多個對象(如樂器、人、車輛等)之間交互的視頻。
另外,表達式(Expression)的多樣性是 Ref-AVS 數據集構建的核心要素之一。
除去本身固有的文本語義信息,表達式還由聽覺、視覺和時間三個維度的信息組成。
聽覺維度包含音量、節奏等特征,而視覺維度則包含物體的外觀和空間等屬性。
團隊還利用時間線索來生成具有時序提示的引用,例如 " 先發出聲音的 ( 物體 ) " 或 " 後出現的 ( 物體 ) "。
通過整合聽覺、視覺和時間信息,研究設計出豐富的表達式,不僅可以準确反映多模态場景,還可以滿足用戶對精确引用的特定需求。
而且,表達式的準确性也是一個核心關注點。
研究遵循三個規則來生成高質量的表達式:
1)唯一性:一個表達式所指代的對象必須是唯一的,不能同時指代多個對象。
2)必要性:可以使用複雜的表達式來指代對象,但句子中的每個形容詞都應該縮小目标對象的範圍,避免對所要指代的對象進行不必要和冗餘的描述。
3)清晰度:某些表達模闆涉及主觀因素,例如 " 聲音更大的 __"。隻有在情況足夠清晰時才應使用此類表達,以避免産生歧義。
團隊将每段 10 秒的視頻分成十個相等的 1 秒片段,利用 Grounding SAM 來分割和标記關鍵幀,随後要求标注員手動檢查和更正這些關鍵幀。
此過程使團隊能夠在關鍵幀内爲多個目标對象生成掩碼和标簽。
一旦确定了關鍵幀的掩碼,研究就會應用跟蹤算法來跟蹤目标對象,并在 10s 的跨度内獲得目标對象的最終掩碼标簽 ( Ground Truth Mask ) 。
到了數據分割與統計,測試集中的視頻及其對應的注釋會經過訓練過的标注人員的細緻審查和校正。
爲了全面評估模型在 Ref-AVS 任務中的表現,測試集進一步被劃分爲三個不同的子集。
具體而言,三個測試子集包括:
已見子集 ( Seen ) :包括那些在訓練集中出現過的物體類别,建立該子集的目的是評估模型的基本性能。
未見子集 ( Unseen ) :專門用于評估模型在未見音視頻場景中的泛化能力。
空指代子集 ( Null ) :測試模型對空引用的魯棒性,即表達式與視頻中的任何對象都不相關。
具體咋實現的?
完成了數據集準備後,團隊利用多模态線索來增強表達式指代能力(Expression Enhancing with Multimodal Cues, EEMC),以實現更好的視聽指代分割。
具體而言,在時序雙模态融合(Temporal Bi-Modal Transformer)模塊中,團隊将包含時序信息的視聽模态信息(FV, FA)分别與文本信息 FT 進行融合。
注意, 爲了讓模型更好的感知時序信息,研究提出了一種直觀的 Cached memory 機制(CV,CA )。
Cached memory 需要存儲從開始到當前時刻的時序平均模态特征,以捕捉時序變化中多模态信息的變化幅度。多模态特征(QV, QA)計算方式如下 :
其中,表示時序中的特定時間步, 則是一個可調節的超參數用于控制時序過程中模型對特征時序變化的敏感度。
當此刻的音頻或視覺特征與過去特征的均值相比變化不大時 , 輸出的特征保持幾乎不變。
然而,當變化較爲明顯時,cached memory 可以放大當前特征的差異,從而産生具有顯著特征的輸出。
此後,拼接的多模态特征被送入 Multimodal Integration Transformer 模塊中進行多模态融合 , 産生包含多模态信息的指代表達式的最終特征(QM)作爲掩碼解碼器的輸入。
掩碼解碼器是一個 Transformer 架構的分割基礎模型如 MaskFormer,Mask2Former 或者 SAM。
團隊選擇Mask2Former作爲分割基礎模型,将其預訓練的 mask queries 作爲,将多模态指代表達式特征作爲 和 。
經過一個 cross-attention transformer(CATF)将多模态指代表達式特征遷移到 mask queries 中,從而實現讓分割基礎模型根據多模态特征進行分割。
實驗結果
在定量實驗中,團隊将研究提出的基線方法與其它方法進行對比,且爲了公平補充了其他方法缺失的模态信息。
在 Seen 子集上的測試結果顯示,新方法 Ref-AVS超越了其它方法的性能。
同時在 Unseen 子集和 Null 子集上,Ref-AVS 展示了可泛化性,并且可以準确地跟随指代表達。
在定性實驗中, 團隊在 Ref-AVS Bench 測試集上對分割掩碼進行可視化,并與 AVSegFormer 和 ReferFormer 進行比較。
結果顯示,ReferFormer 在 Ref-VOS 任務中的表現以及 AVSegFormer 在 AVS 任務中的表現都未能準确分割出表達中描述的對象。
具體來說,AVSegFormer 在理解表達時遇到困難,往往直接生成聲音源。
例如,在左下角的樣本中,AVSegFormer 錯誤地将吸塵器分割爲目标,而不是男孩。
另一方面,Ref-VOS 可能無法充分理解音頻 - 視覺場景,因此誤将幼童識别爲鋼琴演奏者,如右上角的樣本所示。
相比之下,Ref-AVS 方法展現了更出色的能力,能夠同時處理多模态表達和場景,從而準确地理解用戶指令并分割出目标對象。
未來,可以考慮更優質的多模态融合技術、模型應用的實時性以及數據集的擴展與多樣化 , 以将多模态指代分割應用到視頻分析、醫療圖像處理、自動駕駛和機器人導航等挑戰中。
更多詳情歡迎查閱原論文。
論文地址 :
https://arxiv.org/abs/2407.10957
項目主頁 :
https://gewu-lab.github.io/Ref-AVS/
— 完 —
投稿請發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回複你
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>