MIT 新晉副教授何恺明,新作新鮮出爐:
瞄準一個橫亘在 AI 發展之路上十年之久的問題:數據集偏差。
該研究爲何恺明在 Meta 期間與劉壯合作完成,他們在論文中指出:
盡管過去十多年裏業界爲構建更大、更多樣化、更全面、偏差更小的數據集做了很多努力,但現代神經網絡似乎越來越善于 " 識破 " 并利用這些數據集中潛藏的偏差。
這不禁讓人懷疑:我們在消除數據集偏差的戰鬥中,真的取得了勝利嗎?
數據集偏差之戰,在 2011 年由知名學者 Antonio Torralba 和 Alyosha Efros 提出——
Alyosha Efros 正是 Sora 兩位一作博士小哥(Tim Brooks 和 William Peebles)的博士導師,而 Antonio Torralba 也在本科期間指導過 Peebles。
當時他們發現,機器學習模型很容易 " 過拟合 " 到特定的數據集上,導緻在其他數據集上表現不佳。
十多年過去了,盡管我們有了更大、更多樣化的數據集,如 ImageNet、YFCC100M、CC12M 等,但這個問題似乎并沒有得到根本解決。
反而,随着神經網絡變得越來越強大,它們 " 挖掘 " 和利用數據集偏差的能力也越來越強了!
爲了分析這個問題,何恺明團隊設計了一個虛構的 " 數據集分類 " 任務。
聽名字你可能就猜到了:給定一張圖像,模型需要判斷它來自哪個數據集。通過看模型在這個任務上的表現,就可以了解它們捕捉數據集偏差的能力。
現代 AI 輕松識破不同數據集
在實驗中團隊發現,各種現代神經網絡架構,如 AlexNet、VGG、ResNet、ViT 等,在數據集分類任務上表現出驚人的一緻性:它們幾乎都能以超過 80% 的準确率區分不同數據集的圖像!
更令人吃驚的是,這個發現在各種不同的條件下都非常穩健:
不管是不同的數據集組合、不同的模型架構、不同的模型尺寸、不同的訓練數據量,還是不同的數據增強方法,神經網絡始終能輕松 " 一眼識破 " 圖像的數據集來源。
那麽,神經網絡是如何做到這一點的呢?是靠單純的記憶,還是學到了一些更普适的規律?
爲了揭開謎底,團隊做了一系列對比實驗。他們發現,如果把不同的數據集随機混在一起,神經網絡就很難再區分它們了(準确率下降到了 33%)。這說明,神經網絡并不是在單純地記憶每一張圖像,而是真的學到了一些數據集特有的模式。
更有趣的是,即使在自監督學習的設置下,神經網絡也展現出了驚人的 " 數據集辨識力 "。在這種設置下,模型在訓練時并沒有用到任何數據集的标簽信息,但當在這些自監督學習到的特征上訓練一個簡單的線性分類器時,它依然能以超過 70% 的準确率區分不同的數據集!
通過這一系列的實驗,何恺明、劉壯等人的研究給我們敲響了警鍾:盡管這十年我們一直在努力構建更大、更多樣化的數據集,但數據集偏差這個問題似乎并沒有得到根本解決。相反,現代神經網絡越來越善于利用這些偏差來獲得高準确率,但這可能并不代表它們真正學到了魯棒、普适的視覺概念。
論文的最後,作者呼籲整個 AI 社區重新審視數據集偏差這個問題,并重新思考如何在算法和數據兩個層面上來應對這一挑戰。
CVPR 最佳論文作者的通力合作
本文是何恺明在 Meta 期間,與 Meta 研究科學家劉壯合作完成。
現在,何恺明已經正式在 MIT 上崗,擔任電氣工程與計算機科學系的助理教授。,在 youtube 上已經有 2.9 萬的播放量。
和何恺明一樣,劉壯本科畢業自清華,并且也是 CVPR 最佳論文獎得主——他是 CVPR2017 最佳論文 DenseNet 的第一作者。
2017 年,劉壯從清華姚班畢業,進入加州大學伯克利分校攻讀博士學位,師從 Trevor Darrell,是賈揚清的同門師弟。
博士畢業後,劉壯進入 Meta AI Research 工作。在此之前,他已經在 Meta 實習了一年多時間,期間和謝賽甯合作,發表了 ConvNeXt。
論文地址:
https://arxiv.org/abs/2403.08632
參考鏈接:
https://twitter.com/liuzhuang1234/status/1768096508082008289