随着光學算法發展,如今我們用低維傳感器也能 " 捕獲 " 高維信号了。
舉個例子,這是我們用 2D 傳感器拍到的一張 " 照片 ",看起來充滿了噪聲數據:
然而,正是通過這張 " 照片 " 所包含的數據,我們就能還原出一段動态的視頻來!
聽起來很神奇,但通過一種名叫快照壓縮成像(Snapshot Compressive Imaging, SCI)的方法,确實能實現。
這種方法能将高維數據作爲二維測量進行采樣, 從而實現高效地獲取高維視覺信号。
以相機爲例,雖然它是 2D 傳感器,但如果想辦法在相機鏡頭後加個數字微鏡器件測量設備 (Digital Micromirror Devices,DMD,這是一種能精确地控制光源的器件),就有辦法使普通的相機對高維數據進行降維測量,得到簡易的的 2D 數據,再還原出高維 3D 的視覺信号。
比如,普通的相機幀率很低,一秒最多隻能拍幾十張照片(假設能拍 30 張)。
當我們想拍攝高速運動的物體時,隻要給普通相機加上這個數字微鏡器件,它就會沿時間維度壓縮視頻信号,每拍到一張照片就能還原出來幾幀甚至幾十幀照片(也就是還原出來一段視頻)。
假設我們給數字微鏡器件預設的壓縮率是 10,那麽,現在拍一張照片就能還原出來 10 張照片(或者說是一段包含了 10 幀照片的視頻),而相機的幀率也直接翻了 10 倍,變成一秒能拍 300 張照片。
現在問題來了,要如何從這些含有噪聲的壓縮低維測量數據中,盡可能高效地恢複原始高維信号呢?
随着深度學習發展,各種重建算法也都被提了出來,然而這些算法重建信号的準确性和穩定性仍然不夠好。
爲此,來自港大、中科院和西湖大學的研究人員,提出了一種用于視頻快照壓縮成像的 Deep Equilibrium Models(DEQ)方法,目前已被 AAAI 2023 收錄:
這種方法不僅提升了重建準确度和穩定性,還進一步優化了内存占用空間——
算法在訓練和測試中隻需要常數級内存,即:在使用深度學習時,它所消耗的内存空間不随網絡深度變化(而在使用傳統優化方法時,它所消耗的内存空間不随叠代次數變化)。
一起來看看。
快照壓縮成像難點是什麽?
受益于新穎光學硬件和成像算法的設計,快照壓縮成像(Snapshot Compressive Imaging, SCI)系統可以在一次快照測量中,将高維數據作爲二維測量進行采樣, 從而實現高效地獲取高維視覺信号。
如圖 1 所示,SCI 系統可以分爲兩個部分,硬件編碼和軟件解碼:
△圖 1. 快照壓縮成像系統使用低維傳感器在快照測量中捕獲高維數據
以拍攝視頻爲例,通過硬件編碼,SCI 系統對視頻數據進行采樣,在時間維度上壓縮;此後,采用算法來重建原始的高維視頻數據。
這裏考慮視頻 SCI 系統,如視頻 1 所示,視頻上半部分展示的是 SCI 系統硬件部分得到的壓縮測量,視頻下半部分是使用該論文提出的算法恢複出來的視頻結果。
△視頻 1. 六個經典數據集的壓縮測量(第一行),和使用該論文算法恢複出來的視頻結果(第二行)
顯然,整個成像過程中需要求解一個逆問題:如何從含噪聲的壓縮測量中恢複視頻。
盡管目前已經有很多重建方法可以求解 SCI 成像的逆問題,但這些方法各有缺陷,如圖 2 所示:
△圖 2. SCI 重建的現有方法和主要問題
其中,傳統的優化算法(a)性能有限。
而随着深度學習的發展,端到端的深度網絡(b)和 unfolding 方法(c)雖然能提高性能,但不可避免地随着層網絡深度的增加而遭受不斷增長的内存占用需求,并且需要精心地設計模型。
即插即用(PnP)框架(d)雖然享受數據驅動正則化和靈活叠代優化的優點,但是這種算法必須通過适當的參數設置來保證準确的結果,甚至需要采用一些複雜的策略來獲得令人滿意的性能。
相比于其他方法,論文提出了新算法DE-RNN 和 DE-GAP,來保證重建結果的準确性和穩定性,其重建結果的性能可以收斂到一個較高水平,如圖 3 所示:
△圖 3. DE-GAP 與其他方法重建結果對比
通常來說,以往方法如 RNN 和 PnP 的重建結果不穩定,甚至在長期叠代中性能變差。
但 DE-GAP 重建結果卻能随着叠代次數的增加保持性能的提升,并最終收斂到穩定的結果。
這是怎麽做到的?
引入先進模型提升性能
爲了解決以往方法存在的問題、實現更先進的 SCI 重建,這篇論文首次提出了一種新思路——
使用DEQ 模型,解決視頻 SCI 重建的逆問題。
DEQ 模型在 2019 年被首次提出,主要應用于自然語言處理中的大規模長序列語言處理任務。
如圖 4 所示,DEQ 模型可以通過牛頓叠代法等求根方法,在前向傳播和反向傳播的過程中直接求解出不動點,從而僅使用常數級内存就等效實現了無窮深網絡:
△圖 4. DEQ 模型的求解不動點方法(左)和常數級内存占用(右)
(圖 4 出自論文:S. Bai et al, "Deep equilibrium models", NeurIPS 2019.)
具體來說,這篇論文首次将 DEQ 模型應用于兩個現有的視頻 SCI 重建框架:RNN 和 PnP。
效果也非常不錯,RNN 相當于僅使用常數級内存實現了無窮深網絡,PnP 等效于實現了無窮多叠代優化步驟,并且在叠代優化過程中直接求解不動點。
如圖 5 所示,論文爲 RNN 和 PnP 分别設計了結合 DEQ 模型的叠代函數,這裏 x 是重建結果,y 是壓縮測量,Φ 是測量矩陣:
△圖 5. RNN 和 PnP 分别結合 DEQ 模型後的叠代函數
(具體推導過程和前後向傳播的細節請見論文)
實驗結果如何?
論文在六個經典的 SCI 數據集和真實數據上都進行了實驗,相較以往的方法,整體重建結果都要更好。
如表 1 顯示,平均而言,這種方法在 PSNR 實現了大約 0.1dB 的改善,SSIM 實現了大約 0.04 的改善。SSIM 的改進表明,這種方法可以重建具有相對精細結構的圖像:
△表 1. 視頻 SCI 重建的六個經典數據集上不同算法的 PSNR(dB)和 SSIM
圖 6 則是經典數據集上不同算法的重建結果對比,在一些細節的呈現上更加流暢清晰:
△圖 6
圖 7 則是真實數據上不同算法的重建結果對比,效果相比之下也要更好:
△圖 7
更多實驗結果可見論文。
目前論文代碼已開源,感興趣的小夥伴們可以用起來了 ~
(文末還附上了作者的講解視頻,深入淺出)
論文地址:
https://arxiv.org/pdf/2201.06931
代碼地址:
https://github.com/IndigoPurple/DEQSCI
論文講解視頻 by 作者:
英語:https://www.bilibili.com/video/BV1X54y1g7D9/
中文:https://www.bilibili.com/video/BV1V54y137QK/
塑料粵語:https://www.bilibili.com/video/BV1224y1G7ee/