自動駕駛不怵惡劣天氣，西電&上海AI Lab多模态融合檢測端到端算法來了

惡劣天氣下，自動駕駛汽車也能準确識别周圍物體了？！

西安電子科大、上海 AI Lab 等提出多模态融合檢測算法 E2E-MFD，将圖像融合和目标檢測整合到一個單階段、端到端框架中，簡化訓練的同時，提升目标解析性能。

相關論文已入選頂會 NeurlPS 2024 Oral，代碼、模型均已開源。

其中圖像融合是指，把不同來源（比如可見光和紅外相機）的圖像合并成一張，這樣就能在一張圖像中同時看到不同相機捕捉到的信息；目标檢測即找出并識别圖像中的物體。

端到端意味着，E2E-MFD 算法可以一次性處理這兩個任務，簡化訓練過程。

而且，通過一種特殊的梯度矩陣任務對齊（GMTA）技術，這兩個任務還能互幫互助，互相優化。

最終實驗結果顯示，E2E-MFD 在信息傳遞、圖像質量、訓練時間和目标檢測方面均優于現有方法。

E2E-MFD：多模态融合檢測端到端算法

衆所周知，精确可靠的目标解析在自動駕駛和遙感監測等領域至關重要。

僅依賴可見光傳感器可能會導緻在惡劣天氣等複雜環境中的目标識别不準确。

可見光 - 紅外圖像融合作爲一種典型的多模态融合（MF）任務，通過利用不同模态的信息互補來解決這些挑戰，從而促進了多種多模态圖像融合技術的快速發展。

諸如CDDFuse 和 DIDFuse 方法采用兩步流程：

首先訓練多模态融合網絡（MF），然後再訓練目标檢測（OD）網絡，用來分别評估融合效果。

盡管深度神經網絡在學習跨模态表征能力上取得了顯著進展，并帶來了多模态融合的良好結果，但大多數研究主要集中在生成視覺上吸引人的圖像，而往往忽略了改進下遊高級視覺任務的能力，如增強的目标解析。

最近的研究開始設計聯合學習方法，将融合網絡與目标檢測和圖像分割等高級任務結合在一起。

其中，多模态融合檢測（MFD）方法中 MF 與 OD 的協同已成爲一個活躍的研究領域。

這種協同作用使得 MF 能夠生成更豐富、更有信息量的圖像，從而提升 OD 的性能，而 OD 則爲 MF 提供了有價值的目标語義信息，從而準确地定位和識别場景中的物體。

通常，MFD 網絡采用一種級聯設計，其中聯合優化技術使用 OD 網絡來引導 MF 網絡創建便于目标檢測的圖像。

但是依舊存在以下問題：

1）當前的優化方法依賴于多步驟、漸進的聯合方法，影響訓練效率；

2）這些方法過于依賴目标檢測（OD）信息來增強融合，導緻參數平衡困難并易于陷入單個任務的局部最優解。

因此，尋求一個統一的特征集，同時滿足每個任務的需求，仍然是一項艱巨的任務。

爲此，研究提出了一種名爲 E2E-MFD 的端到端多模态融合檢測算法。

（1）這是一種高效同步聯合學習的方法，将圖像融合和目标檢測創新性地整合到一個單階段、端到端的框架中，這種方法顯著提升了這兩項任務的成果。

（2）引入了一種新的 GMTA 技術，用于評估和量化圖像融合與目标檢測任務的影響，幫助優化訓練過程的穩定性，并确保收斂到最佳的融合檢測權重配置。

（3）通過對圖像融合和目标檢測的全面實驗驗證，展示了所提出方法的有效性和穩健性。在水平目标檢測數據集 M3FD 和有向目标檢測數據集 DroneVehicle 上與最先進的融合檢測算法相比，E2E-MFD 表現出強大的競争力。

其整體架構如下：

展開來說，E2E-MFD 通過同步聯合優化，促進來自兩個領域的内在特征的交互，從而實現簡化的單階段處理。

爲了協調細粒度的細節與語義信息，又提出了一種全新的對象 - 區域 - 像素系統發育樹（ORPPT）概念，并結合粗到細擴散處理（CFDP）機制。

該方法受視覺感知自然過程的啓發，專爲滿足多模态融合（MF）和目标檢測（OD）的具體需求而設計。

此外，研究引入了梯度矩陣任務對齊（GMTA）技術，以微調共享組件的優化，減少傳統優化過程中固有的挑戰。

這确保了融合檢測權重的最優收斂，增強了多模态融合檢測任務的準确性和有效性。

實驗實驗細節

E2E-MFD 在多個常用數據集（TNO、RoadScene、M3FD 和 DroneVehicle）上進行了實驗，實驗運行在一張 GeForce RTX 3090 GPU 上。

模型基于 PyTorch 框架實現，部分代碼在 M3FD 數據集上使用了 Detectron2 框架，并通過預訓練的 DiffusionDet 初始化目标檢測網絡。

優化器采用 AdamW，批量大小爲 1，學習率設爲 2.5 × 10 ⁻⁵，權重衰減爲 1e-4。

模型共訓練了 15,000 次叠代。

在 DroneVehicle 數據集上，實驗基于 MMRotate 0.3.4 框架，使用預訓練的 LSKNet 模型進行初始化，并通過 12 個 epoch 的微調進行優化，批量大小爲 4。

實驗結果

研究提供了不同融合方法在 TNO、RoadScene 和 M3FD 數據集上的定量結果。

模型的訓練（Tr.）和測試（Te.）時間均在 NVIDIA GeForce RTX 3090 上統計。

可以看出，E2E-MFD 在MI 指标上普遍獲得了最佳度量值，表明其在信息傳遞方面比其他方法從兩個源圖像中提取了更多有用的信息。

EN 值進一步顯示，E2E-MFD 能夠生成包含清晰邊緣細節且對象與背景對比度最高的圖像。

較高的VIF 值則表明，E2E-MFD 的融合結果不僅具有高質量的視覺效果，同時在失真度方面較低。

此外，該方法的訓練時間最快，表明在新的數據集上能夠實現更快速的叠代更新。

生成融合圖像的測試時間在所有方法中排名第三。

定性結果如下圖所示，所有融合方法均在一定程度上融合了紅外和可見光圖像的主要特征，但 E2E-MFD具備兩個顯著優勢。

首先，它能夠有效突出紅外圖像的顯著特征，例如在 M3FD 數據集中，E2E-MFD 捕捉到了騎摩托車的人員。

與其他方法相比，E2E-MFD 展示了更高的物體對比度和識别能力。

其次，它保留了可見圖像中的豐富細節，包括顔色和紋理。

在 M3FD 數據集中，E2E-MFD 的優勢尤爲明顯，比如能夠清晰顯示白色汽車的後部以及騎摩托車的人。

E2E-MFD 在保留大量細節的同時，保持了圖像的高分辨率，并且沒有引入模糊現象。而其他方法則未能同時實現這些優勢。

爲了更有效地評估融合圖像對下遊檢測任務的影響，研究在 M3FD 數據集上使用了YOLOv5s 檢測器對所有 SOTA 方法進行了測試，結果如表所示。

與單模态檢測相比，SOTA 方法在融合圖像上的表現明顯提升，表明良好融合的圖像能夠有效地支持下遊檢測任務。

E2E-MFD 生成的融合圖像在 YOLOv5s 檢測器上表現最佳，同時在 DiffusionDet 檢測器上也取得了出色的成績。

即使與端到端目标檢測方法（E2E-OD）相比，E2E-MFD 的方法仍顯示出了顯著的性能提升，充分證明了其訓練範式和方法的有效性。

檢測結果的可視化如下圖所示。

當僅使用單模态圖像作爲輸入時，檢測結果較差，常常漏檢諸如摩托車和騎手等目标，尤其是在圖像右側靠近汽車和行人的區域。

幾乎所有的融合方法都通過融合兩種模态的信息，減少了漏檢現象并提升了檢測的置信度。

通過設計端到端的融合檢測同步優化策略，E2E-MFD 生成了在視覺上和檢測上都非常友好的融合圖像，尤其在處理遮擋和重疊的目标時表現出色，比如圖像右側藍色橢圓中的摩托車和重疊的行人。

在DroneVehicle 數據集上的目标檢測定量結果多模态如表所示，E2E-MFD 達到了最高的精度。

此外，使用生成的融合圖像在 YOLOv5s-OBB 和 LSKNet 上進行檢測時，較單一模态至少提高了5.7% 和 3.1% 的 AP 值，驗證了方法的魯棒性。

這證明了融合圖像的優異質量，表明它們不僅在視覺上令人滿意，還爲檢測任務提供了豐富的信息。

小結

研究提出了多模态融合檢測算法E2E-MFD，僅以單步訓練過程同時完成融合和檢測任務。

引入了一個系統發育樹結構和粗到細擴散處理機制，來模拟在不同任務需求下，不同視覺感知中需要完成的這兩項任務。

此外，研究對融合檢測聯合優化系統中的任務梯度進行了對齊，消除聯合優化過程中兩個任務的梯度優化沖突。

通過将模型展開到一個設計良好的融合網絡和檢測網絡，可以以高效的方式生成融合與目标檢測的視覺友好結果，而無需繁瑣的訓練步驟和固有的優化障礙。

更多細節歡迎查閱原論文。

論文鏈接（非最終版本）：

https://arxiv.org/abs/2403.09323

代碼鏈接：

https://github.com/icey-zhang/E2E-MFD

作者主頁：

https://icey-zhang.github.io/

https://yangxue0827.github.io/

— 完 —

投稿請發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回複你

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~