夢晨 發自 凹非寺
量子位 | 公衆号 QbitAI
大家看視頻用過 " 高光時刻 " 功能嗎?
觀衆可以直接空降到精彩時刻,主播也可以從長時間直播錄像中複盤自己的表現。
字節跳動聯合中科院自動化研究所提出新方法,用 AI 快速檢測出視頻中的高光片段,對輸入視頻的長度以及期望提取的高光長度都具有極高的靈活性,相關論文已被 AAAI 2024 收錄。
基于原型學習的基準解決方案
連續學習問題在圖像識别領域得到了很好的發展,有效緩解了深度學習模型所面臨的災難性遺忘問題。然而,現有的技術大多适用于圖像域,在視頻域上探索連續學習的相關方法還比較少。分析其中的原因,主要是兩個方面的困境:其一是缺少用于增量學習的視頻數據集以及評測标準;其二是缺少一個适用于視頻域增量學習的基準方法。
面對這一挑戰,字節跳動聯合中科院自動化研究所标注了用于域增量學習的美食視頻數據集 LiveFood,并在此基礎上,提出了基于原型學習的基準解決方案:Global Prototype Encoding(GPE)。
GPE 克服了現有增量學習方案的諸多弊端,通過在圖像幀級别上的打分,幫助快速檢測出視頻中的高光片段,對輸入視頻的長度以及期望提取的高光長度都具有極高的靈活性。
問題定義與數據搜集
要解決連續學習設定下的視頻高光檢測,避不開兩個關鍵點:其一是數據集,其二是任務定義。
考慮到美食視頻是當下的一大熱點,本篇文章從美食視頻入手,以期獲得更大的應用範圍。在美食垂類中,本文定義了四個域,分别是:食材準備(ingredients),烹饪(cooking),成品展示(presentation),以及美食享用(eating)。
這四個域可以基本涵蓋美食視頻中的精彩部分。在此基礎上,作者收集了 5100 多條美食視頻數據,組成了 LiveFood 數據集。标注人員對該數據集做了詳細的人工标注,指明高光的片段的起止時間以及對應的域。标注的過程經過兩次校對,确保标注的準确性。LiveFood 數據集的基本信息如下:
△ 圖片 1
圖片 1(a)反映了 LiveFood 中的視頻,多數時長都在 200 秒以内,是短視頻的範疇;圖片 1(b)反映了 LiveFood 中的高光标注,主要集中在 9 秒鍾以下;圖片 1(c)反映了 LiveFood 中的視頻高光較均勻地分布在整個視頻,可以有效防止模型學習捷徑。
作者指出,在圖像識别中,由于每張圖像大多隻包含一種域(風格),因此域增量學習任務較容易定義,但是在視頻任務中,該前提不再成立。例如,在 LiveFood 中,一個視頻可能包含着若幹美食域。
基于此,作者約束:在當前訓練階段中,視頻中不可以包含前序訓練階段中出現的域組合。
例如,在第一訓練階段,所有的視頻隻包含「美食展示」這一域,在第二個訓練階段,新增「美食享用」這一域,那麽,在第二階段出現的每個視頻,其域組合有兩種,其一是僅有「美食享用」,其二是同時包含「美食展示,美食享用」。
而在第一階段出現的「美食享用」不可再單獨出現。評測集中的視頻有着所有的域标注,在對應的訓練階段,隻評測該訓練階段及前序階段出現的域,未出現的域不參與評測。評測指标爲高光檢測的 mAP。下表展示了 LiveFood 和現有數據的一些對比,表明 LiveFood 更适合用來做增量學習:
△表格 1
技術創新路徑
現有增量學習的解決方案可以粗略分爲三個大方向:
其一是數據回放,即通過一定的篩選機制,在每個訓練階段保存具有代表性的數據,這些數據将參與後續階段的訓練,從而減緩模型的遺忘現象;
其二是參數正則,即約束模型參數的變化量,保持對前序階段所學内容的響應;
其三是模型增長,即使用不同的模型,來解決不同訓練階段的任務,用隔離的方式緩解遺忘現象。
GPE 的設計期望達成以下目标:
其一,不顯式使用數據回放,因爲選擇代表性數據并不容易,并且視頻數據的存儲和讀取有一定代價;
其二,避免參數正則化方案中,模型受少數參數主導的問題;
其三,不采用模型增長,維護同一個模型結構,從而在不同的訓練階段,都可以複用相同的部署方案。
基于此,GPE 使用了高光原型學習的方案,在視頻幀級别上做二分類任務,判斷視頻幀屬于高光還是非高光。
首先,GPE 使用 ConvNeXt 網絡提取視頻幀的特征,并利用編碼器(encoder)對這些特征做時序上的融合,獲得上下文的信息。經過時序融合後的特征計算到高光原型點和非高光原型點的距離,這些距離會使用 Softmax 函數映射成概率的形式,用于做二分類任務。
△ 圖片 2
GPE 緩解深度學習模型的災難性遺忘,是通過限制不同訓練階段之間原型點的變化實現的。分别用 θ,ϕ, π 表示 CNN 的參數,編碼器的參數,以及可學習的高光 / 非高光原型點。GPE 的優化目标爲:在相鄰訓練階段之間,π 的變化量不超過 γ 的前提下,最小化高光和非高光的分類損失。對于帶約束的優化問題,我們使用拉格朗日方法求解,其中拉格朗日對偶表達式如下:
使用啓發式思想,在約束條件成立時,減小懲罰因子 λ 是拉格朗日乘子,還需要保證其大于零。在訓練過程中,利用每個批次的訓練數據,交替優化上述參數即可:
基準測試結果
GPE 在 LiveFood 上取得了良好的高光檢測性能,可以對初始訓練階段中的美食高光産生較高的響應。參與對比的方案包括:性能下界(Lb),性能上界(Ub),SI,oEWC,ER,DER 等。
GPE 有兩個變式,其 Mf 指的是動态增加原型點的數量,在每個訓練階段隻約束原來原型點的變化,新增的原型點可以自由學習。帶星号(*)的方法使用了随機數據回放。表格 2 展示了在不同訓練階段,GPE 檢測美食高光的能力(mAP)。
△表格 2
美食高光檢測可視化。在訓練過程中,域的出現順序爲:presentation,eating,ingredients,以及最後的 cooking。圖片 3 展示了 GPE 在第四階段訓練完成後(T4,橙色),仍然對第一階段的域 presentation 有着很高的響應,超過了 DER 在第四階段對 presentation 的響應程度。
△圖片 3
高光原型點與非高光原型點可視化。圖片 4 展示了在不同訓練階段的高光原型點以及非高光原型點的分布狀态。考慮到非高光片段大多爲無意義片段,特征相似,因此在不同的訓練階段,隻增加高光原型點(每個訓練階段增加 80 個),不增加非高光原型點。圖片 4 展示了,即使随着訓練階段的不斷增加,高光原型點與非高光原型點還是能夠被模型很好的分開,這也表明了 GPE 有着較強的抵抗遺忘的能力。
△圖片 4
項目鏈接: https://foreverps.github.io/
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~