随着以深度學習爲代表的新一代人工智能技術不斷取得突破,學術界與工業界逐漸意識到人工智能技術在圖像、視頻壓縮領域的巨大應用潛力。
基于深度學習的圖像視頻壓縮技術被視爲超越傳統壓縮技術能力極限、取得突破性進展的明日之星。
近日,第六屆深度學習圖像壓縮挑戰賽(以下将簡稱 "CLIC 大賽 ")比賽結果公布,由火山引擎多媒體實驗室與北大組成的聯合參賽平台 b-2 在高碼率視頻壓縮和低碼率視頻壓縮兩個賽道均奪得主客觀指标冠軍。基于深度學習技術,b-2 平台提出了一項 " 傳統 - 智能混合解決方案 "。
b-2 平台在充分理解傳統壓縮技術與深度學習壓縮技術的各自原理的基礎上,發揮兩種技術路線的各自優勢,取長補短,将二者有機融合成爲一個整體,形成了獨具特色的傳統——智能混合解決方案。
傳統編碼模塊在業界已有傳統編碼框架基礎上,加入了非對稱四叉樹劃分等創新技術。智能編碼模塊則引入了基于深度學習的環路濾波等技術。
△非對稱四叉樹劃分結構; ( a ) H1 型水平 UQT, ( b ) H2 型水平 UQT, ( c ) V1 型垂直 UQT, ( d ) V2 型垂直 UQT。
編碼單元劃分是混合視頻編碼框架的基礎,決定着編碼單元的基本形狀和尺寸。靈活的劃分方法能更有效地表達視頻豐富的紋理和運動,對編碼性能的提升起着至關重要的作用。
團隊提出了非對稱四叉樹 ( UQT ) 劃分結構,旨在提高視頻的編碼效率。與現有的四叉樹 ( Quad Tree, QT ) ,二叉樹 ( Binary Tree, BT ) ,三叉樹 ( Ternary Tree, TT ) 劃分結構相比,UQT 通過一次劃分生成的子編碼單元能觸及更深的劃分深度,能更有效地捕捉視頻豐富的細節特性。
此外,UQT 生成的子塊形狀是無法通過 QT 、BT、TT 組合實現的,一定程度上彌補了現有劃分的不足,豐富了劃分的表達。
△環路濾波網絡結構示意圖,包括網絡的輸入,濾波與輸出模塊
傳統視頻編碼中采用環路濾波器去除編碼失真,縮小原始圖像與重建之間的失真,例如經典的去塊濾波、樣本自适應偏移和自适應環路濾波等。
參賽平台提出了一種基于殘差卷積網絡的增強型環路濾波技術,有機地将環路濾波技術與深度學習技術結合在一起,在網絡結構中與模型訓練中充分利用傳統視頻編碼的先驗信息,提升環路濾波效率。
網絡輸入方面,除重建像素外,團隊将編碼過程中的預測信息、劃分信息、邊界強度以及量化參數等作爲增強信息供深度網絡學習,豐富先驗知識,使得網絡能更好地感知壓縮失真。
在分層參考的編碼結構中,待編碼幀将參考已重建的高質量幀。團隊提出對不同時域層次幀所使用的濾波器采用叠代訓練的方式,獲取最接近真實編碼的訓練數據,實現更高性能的濾波。
此外,每個條帶及最大編碼單位均可以在多個濾波模型中自适應地選擇率失真性能最優的網絡模型,并将選擇信息傳輸到解碼端。
△CLIC 視頻壓縮賽道基于 MOS 的排行榜
CLIC 大賽由電氣與電子工程師協會 IEEE 主辦,從誕生開始就獲得了學術界與工業界的廣泛關注。
2023 年 CLIC 大賽暫停一屆,本屆大賽依托于數據壓縮領域的頂級會議 Data Compression Conference ( DCC ) 再次舉辦。本屆 DCC 中,火山引擎多媒體實驗室有 8 篇論文入選。此外,這也是該團隊自 2022 年 CLIC 大賽高碼率視頻壓縮和低碼率視頻壓縮兩個賽道奪冠後,再次蟬聯。
火山引擎多媒體實驗室是字節跳動旗下的研究團隊,緻力于探索多媒體領域的前沿技術,參與國際标準化工作,其衆多創新算法及軟硬件解決方案已經廣泛應用在抖音、西瓜視頻等産品的多媒體業務,并向火山引擎的企業級客戶提供技術服務。實驗室成立以來,多篇論文入選國際頂會和旗艦期刊,并獲得數項國際級技術賽事冠軍、行業創新獎及最佳論文獎。
* 本文系量子位獲授權刊載,觀點僅爲作者所有。
— 完 —
量子位 QbitAI
վ ' ᴗ ' ի 追蹤 AI 技術和産品新動态
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~