這個高光時刻,屬于自動駕駛,屬于大模型,更是屬于中國團隊。
就在剛剛,CVPR 2023 最佳論文新鮮出爐,2 篇論文從總量高達 9155 篇的投稿中脫穎而出。
對于這 2 篇最佳論文中的任何一個,可以說用 " 萬裏挑一 " 來形容都不足爲過了。
第一篇名爲 Planning-oriented Autonomous Driving(以路徑規劃爲導向的自動駕駛),由上海人工智能實驗室、武漢大學及商湯科技聯合完成。
據了解,這是近十年來,計算機視覺三大頂級國際會議(CVPR、ICCV、ECCV)上,第一篇以中國學術機構作爲第一單位的最佳論文。
第二篇名爲 Visual Programming: Compositional visual reasoning without training(視覺編程:未經訓練的組合視覺推理),由艾倫人工智能研究所發表。
而在最佳論文的 " 候選名單 " 中,不乏谷歌、斯坦福大學、康奈爾大學等在内的頂尖企業和高校。
競争之激烈,可見一斑。
那麽這兩篇爲何能在衆多論文中成爲佼佼者,我們繼續往下看。
首次提出感知決策一體的自動駕駛通用大模型
自動駕駛曆來被人們稱爲集 AI 技術之大成者。
一般在自動駕駛任務中,通常包含三大模塊,分别是感知、預測和規劃,不過主流方案通常是分開來處理具體任務。
由此導緻的缺陷也是比較明顯,要麽是任務之間協調不足,要麽是影響到了整體性能的提升。
基于這樣的一個背景,這篇論文便首次提出了感知決策一體化的自動駕駛通用大模型——UniAD。
UniAD 是一個綜合框架,将全棧駕駛任務整合到一個基于 Transformer 的端到端網絡中。
除了我們剛才提到的三個主任務之外,還包括六個子任務,包括目标檢測、目标跟蹤、場景建圖、軌迹預測、栅格預測和路徑規劃。
那麽如此 " 大一統 " 的方式之下,結果又如何?
根據論文顯示,在 nuScenes 真實場景數據集中,UniAD 的所有任務均達到 SOTA!
具體 " 實戰 " 效果如下:
在面對采訪時,上海人工智能實驗室青年科學家李弘揚介紹:
憑借其充分的可解釋性、安全性、與多模塊的可持續叠代性,UniAD 是目前爲止最具希望實際部署的端到端模型。
值得一提的是,除了這篇最佳論文之外,上海人工智能實驗室和商湯科技在本屆 CVPR 中均取得了不凡的表現。
兩個單位還聯合斬獲了一篇最佳論文候選,共計 54 篇論文被接收。
通過編寫代碼解決計算機視覺任務的 AI
在第二篇論文中,研究人員提出了VISPROG,是一種神經符号結合(Neuro-Symbolic)的方法,用于在給定自然語言指令的情況下解決複雜和組合的視覺任務。
VISPROG 無需對任何特定任務進行專門訓練。
相反,它利用大語言模型的上下文學習能力,生成類似 Python 代碼的模塊化程序,然後執行這些程序來獲得解決方案和全面且可解釋的理由。
生成的程序的每一行可能會調用多個現成的計算機視覺模型、圖像處理程序或 Python 函數,來生成可能被程序的後續部分使用的中間輸出。
研究人員在四個不同的任務上展示了 VISPROG 的靈活性,包括組合視覺問答、對圖像對進行零樣本推理、事實知識對象标簽和以語言引導的圖像編輯。
研究人員表示:
像 VISPROG 這樣的神經符号方法是令人興奮的,它可以輕松有效地對 AI 系統做擴展,滿足人們可能希望執行的複雜任務需求。
CVPR 2023 其它獎項一覽
除了 2 篇最佳論文之外,其它獎項也在剛剛的開幕式中逐一浮出水面。
最佳學生論文——
3D Registration with Maximal Cliques。
這篇論文的作者來自西北工業大學,提出了一種新的 3D 點雲配準方法,能夠獲得最優的姿态假設。
最佳學生論文榮譽獎——
DreamBooth: Fine Tuning Text-to-lmage Diffusion Models for Subject-Driven Generation。
來自谷歌,可以基于少量的圖片,利用 text-to-image 模型将其轉換到不同場景中,并且保持高分辨率。
這篇論文的方法已在 AI 繪畫社區被廣泛使用。
除此之外,大會還頒發了 PAMITC 獎,包括 Longuet-Higgins 獎、年輕研究者獎以及 Thomas Huang 紀念獎。
Longuet-Higgins 獎——
年輕研究者獎——
Thomas Huang 紀念獎——
關于本屆最佳論文更細緻的内容,可戳下方鏈接查看詳情:
兩篇最佳論文地址:
[ 1 ] https://arxiv.org/abs/2212.10156
[ 2 ] https://arxiv.org/abs/2211.11559
參考鏈接:
[ 1 ] https://twitter.com/cvpr/status/1671545306838626306?s=46&t=iTysI4vQLQqCNJjSmBODPw
[ 2 ] https://mp.weixin.qq.com/s/8svV4yxRi6TikcRivgHr_A
[ 3 ] https://finance.eastmoney.com/a/202306212759316444.html
[ 4 ] https://github.com/OpenDriveLab/UniAD
[ 5 ] https://blog.allenai.org/visual-programming-ca58c7af51cd