利用 AI 打輔助,讓機器夜視能力和白天一樣清晰——
今天,這樣一種颠覆已有熱成像技術的新方法登上了Nature 封面。
它來自美國普渡大學和密歇根州立大學,一作爲浙大畢業的博士。
通過克服傳統解決方案中的" 重影 "問題,這種方法在基準測試中一顯巨大優勢,不僅能像白天一樣看清環境的紋理和深度,還能感知到 RGB、熱視覺以外的各種物理信息,可謂相當利好機器感知尤其是自動駕駛行業。
而作者則認爲,該成果對第四次工業革命還能直接起到加速作用。
何以見得?我們翻開論文來看。
像白天一樣清楚的夜視能力
目前比較前沿的機器感知方法是利用無處不在的熱信号來重現環境信息。
但是它有一個非常明顯的缺點,就是會産生 " 重影效應(ghosting effect)"。
具體而言,該效應是指由于物體和環境在不斷發射熱輻射,導緻三個物理屬性,即溫度(T,物理狀态)、發射率(e,材料指紋)和紋理(X,表面幾何形狀)混合在光子流中出現的一種現象(僅限于夜視情況)。
這種現象主要造成的是環境 / 物體的紋理缺失,如下圖所示:
隻有當燈泡關閉時我們才能看到燈泡上的幾何紋理,一旦發光就完全消失,而黑體輻射不可能被 " 關閉 ",所以也就意味着我們得到的熱圖像總是缺乏紋理,不能看到一個完全真實的黑暗世界。
在此,作者提出了一種名爲 HADAR(heat-assisted detection and ranging )的方法,它以熱光子流爲輸入,記錄高光譜成像熱立方體,通過TeX 分解來解決重影效應這一挑戰。
作者表示,TeX 分解利用機器學習生動地從雜亂的熱信号中恢複紋理(如下圖彩色部分),并使人工智能算法能夠達到信息論的極限,而到目前爲止,傳統的 RGB 或熱視覺辦法很難做到。
它的具體實現如下圖所示:
作者介紹,其架構的物理學靈感來自三個方面。
首先,熱立方體的 TeX 分解依賴于空間模式和光譜熱特征,這啓發了他們在 UNet 模型中采用光譜和金字塔(空間)注意力層。
其次,由于 TeX 的簡并性,必須指定以下數學結構來确保逆映射的唯一性(α、β 代表物體的指數,v 是波數),因此必須學習熱照明系數 V 而不是紋理 X。也就是說,TeX-Net 不能端到端地訓練。
最後,材料庫 M 及其維度是整個網絡的關鍵。
除此之外,作者還提出了一種非機器學習方法,即 TeX-SGD 來生成 TeX-vison 作爲補充。
在測試中,我們能看到 HADAR 方法帶來了超高精度。
如下圖所示,第一行顯示基于原始熱圖像的測距方法由于重影導緻精度很差;第二行則顯示與熱測距相比,HADAR 中恢複的紋理和增強的精度約達 100 倍;
而在下面的場景中(黑色汽車、人和愛因斯坦紙闆),我們能看到:
視覺驅動的物體檢測在光學成像中(a)錯誤地識别出了兩個人和一輛汽車,而激光雷達點雲(c)不但識别到兩個人還把汽車給丢了,隻有 HADAR 方法能夠帶來全面的理解,準确框出一人一車。
最後這一組圖則充分證明,HADAR 在夜間的總體視覺能力優于目前最先進的熱測距方法(GCNDepth),其 RGB 立體視覺更是和白天測試到的基本處于一個水平,即 HADAR 在黑暗中看到環境紋理和深度,就像白天一樣。
作者介紹
一作 Fanglin Bao,普渡大學研究員。他于 2011 年 6 月在浙江大學獲得物理學學士學位,2016 年 6 月獲得光學博士學位。
Fanglin Bao 之前的研究集中于非均勻系統中的卡西米爾效應(量子力學),目前則延伸到張量網絡、神經網絡及其在量子物理學中的應用。
通訊作者爲普渡大學電氣與計算機工程教授 Zubin Jacob,以及密歇根州立大學計算機科學與工程系助理教授 Vishnu Boddeti(後者正在招收 " 數學背景很強 " 的學生)。
論文地址:
https://www.nature.com/articles/s41586-023-06174-6