剛剛,計算機視覺巅峰大會 ICCV 2023,在法國巴黎正式 " 開獎 "!
今年的最佳論文獎,簡直是 " 神仙打架 "。
例如,獲得最佳論文獎的兩篇論文中,就包括颠覆文生圖 AI 領域的著作——ControlNet。
自開源以來,ControlNet 已經在 GitHub 上攬獲 24k 星。無論是對擴散模型、還是對整個計算機視覺領域而言,這篇論文獲獎都可以說是實至名歸。
而最佳論文獎榮譽提名,則頒給了另一篇同樣出名的論文,Meta 的「分割一切」模型 SAM。
自推出以來,「分割一切」已經成爲了各種圖像分割 AI 模型的 " 标杆 ",包括後來居上的不少 FastSAM、LISA、SegGPT,全部都是以它爲參考基準進行效果測試。
論文提名都如此重量級,這屆 ICCV 2023 競争有多激烈?
整體來看,ICCV 2023 一共提交了 8068 篇論文,其中隻有約四分之一、即 2160 篇論文被錄用。
其中近 10% 的論文來自中國,除了高校以外也有不少産業機構的身影,像商湯科技及聯合實驗室有 49 篇論文入選 ICCV 2023,曠視有 14 篇論文入選。
一起來看看這一屆 ICCV 2023 的獲獎論文都有哪些。
ControlNet 獲 ICCV 最佳論文
首先來看看今年獲得最佳論文獎(馬爾獎)的兩篇論文。
ICCV 最佳論文又名馬爾獎(Marr Prize),每兩年評選一次,被譽爲計算機視覺領域的最高榮譽之一。
這一獎項因計算機視覺之父、計算機視覺先驅、計算神經科學的創始人 David Courtnay Marr(大衛 · 馬爾)而得名。
第一篇最佳論文獎「Adding Conditional Control to Text-to-Image Diffusion Models」,來自斯坦福。
這篇論文提出了一種名叫ControlNet的模型,隻需給預訓練擴散模型增加一個額外的輸入,就能控制它生成的細節。
這裏的輸入可以是各種類型,包括草圖、邊緣圖像、語義分割圖像、人體關鍵點特征、霍夫變換檢測直線、深度圖、人體骨骼等,所謂的 "AI 會畫手 " 了,核心技術正是來自于這篇文章。
它的思路和架構如下:
ControlNet 先複制一遍擴散模型的權重,得到一個 " 可訓練副本 "(trainable copy)。
相比之下,原擴散模型經過幾十億張圖片的預訓練,因此參數是被 " 鎖定 " 的。而這個 " 可訓練副本 " 隻需要在特定任務的小數據集上訓練,就能學會條件控制。
即使數據量很少(不超過 5 萬張圖片),模型經過訓練後條件控制生成的效果也很好。
" 鎖定模型 " 和 " 可訓練副本 " 通過一個 1 × 1 的卷積層連接,名叫 "0 卷積層 "。0 卷積層的權重和偏置初始化爲 0,這樣在訓練時速度會非常快,接近微調擴散模型的速度,甚至在個人設備上訓練也可以。
例如一塊英偉達 RTX 3090TI,用 20 萬張圖像數據訓練的話隻需要不到一個星期。
ControlNet 論文的第一作者 Lvmin Zhang,目前是斯坦福博士生,除了 ControlNet 以外,包括 Style2Paints、以及 Fooocus 等著名作品也出自他之手。
論文地址:
https://arxiv.org/abs/2302.05543
第二篇論文「Passive Ultra-Wideband Single-Photon lmaging」,來自多倫多大學。
這篇論文被評選委員會稱之爲 " 在主題(topic)上最令人驚訝的論文 ",以至于其中一位評委表示 " 他幾乎不可能想到去嘗試這樣的事情 "。
論文的摘要如下:
這篇文章讨論了如何同時在極端時間尺度範圍内(從秒到皮秒)對動态場景進行成像,同時要求成像 passively(無需主動發送大量光信号)并在光線非常稀少的情況下進行,而且不依賴于來自光源的任何定時信号。
由于現有的單光子相機的光流估計技術在這個範圍内失效,因此,這篇論文開發了一種光流探測理論,借鑒了随機微積分的思想,以從單調遞增的光子檢測時間戳流中重建像素的時間變化光流。
基于這一理論,論文主要做了三件事:
(1)表明在低光流條件下,被動自由運行的單光子波長探測器相機具有可達到的頻率帶寬,跨越從直流到 31 GHz 範圍的整個頻譜;
(2)推導出一種新穎的傅立葉域光流重建算法,用于掃描時間戳數據中具有統計學顯著支持的頻率;
(3)确保算法的噪聲模型即使在非常低的光子計數或非可忽略的死區時間(dead times)情況下仍然有效。
作者通過實驗證明了這種異步成像方式的潛力,包括一些前所未見的能力:
(1)在沒有同步(如燈泡、投影儀、多脈沖激光器)的情況下,對以不同速度運行的光源同時照明的場景進行成像;
(2)被動的非視域(non-line-of-sight)視頻采集;
(3)記錄超寬帶視頻,可以在 30 Hz 的頻率下回放,展示日常運動,但也可以以每秒十億分之一的速度播放,以展示光的傳播過程。
論文一作 Mian Wei,多倫多大學博士生,研究方向是計算攝影,目前的研究興趣在于基于主動照明成像技術改進計算機視覺算法。
論文地址:
https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf
「分割一切」獲榮譽提名
除了備受關注的 ControNet 之外,紅極一時的 Meta「分割一切」模型獲得了此次大會的最佳論文獎榮譽提名。
這篇論文不僅提出了一個當前最大的圖像分割數據集,在 11M 圖像上擁有超過 10 億個遮罩(mask),而且爲此訓練出了一個 SAM 模型,可以快速分割沒見過的圖像。
相比于之前比較零散的圖像分割模型,SAM 可以說是對這一系列模型功能進行了 " 大一統 ",而且在各項任務中都表現出了不錯的性能。
目前,這一開源模型已經在 GitHub 上攬獲 38.8k 星,可以說是語義分割工業界的「标杆」了。
論文地址:https://arxiv.org/abs/2304.02643
項目主頁:https://segment-anything.com/
而在學生作品當中,Google 提出的「追蹤一切」模型脫穎而出。
就像文章的标題一樣,這個模型可以在任何地點同時對圖像中的任意(多個)物體進行像素級追蹤。
該項目的第一作者是康奈爾大學的華人博士 Qianqian Wang,目前正在 UCB 進行博士後研究。
論文地址:https://arxiv.org/abs/2306.05422
項目主頁:https://omnimotion.github.io/
此外,開幕式上還公布了由 PAMITC 委員會成員捐助的特别獎項,該委員會同時也捐助 CVPR 和 WACV 兩個計算機視覺領域會議的獎項。
這些獎項包括以下四個:
亥姆赫茲獎:十年前對計算機視覺研究産生重大影響的 ICCV 論文
Everingham 獎:計算機視覺領域的進步
傑出研究者:對計算機視覺的進步做出重大貢獻的研究人員
Rosenfeld 終身成就獎:在長期職業生涯中對計算機視覺領域做出重大貢獻的研究人員
其中獲得亥姆赫茲獎的是 Meta AI 的華裔科學家 Heng Wang 和 Google 的 Cordelia Schmid。
他們憑借 2013 年發表的一篇有關動作識别的論文獲得了這一獎項。
當時兩人都在法國國立計算機及自動化研究院(法語縮寫:INRIA)下屬的 Lear 實驗室工作,Schmid 是當時該實驗室的領導者。
論文地址:https://ieeexplore.ieee.org/document/6751553
Everingham 獎則頒發給了兩個團隊。
第一組獲得者是來自 Google 的 Samer Agarwal、Keir Mierle 和他們的團隊。
兩位獲獎者分别畢業于華盛頓大學和多倫多大學,獲獎的成果是計算機視覺領域廣泛使用的開源 C++ 庫 Ceres Solver。
項目主頁:http://ceres-solver.org/
另一項獲獎成果是 COCO 數據集,它包含了大量的圖像和注釋,有豐富的内容和任務,是測試計算機視覺模型的重要數據集。
該數據集由微軟提出,相關論文第一作者是華裔科學家 Tsung-Yi Lin,博士畢業于康奈爾大學,現在英偉達實驗室擔任研究人員。
論文地址:https://arxiv.org/abs/1405.0312
項目主頁:https://cocodataset.org/
獲得傑出研究者榮譽的則是德國馬普所的 Michael Black 和約翰森霍普金斯大學的 Rama Chellappa 兩位教授。
來自 MIT 的 Ted Adelson 教授則獲得了終身成就獎。
你的論文被 ICCV 2023 錄用了嗎?感覺今年的獎項評選如何?