AI 生成的圖像太逼真,爲什麽不能拿來訓練 AI 呢?
可别說,現在還真有人這麽做了。
來自香港大學、牛津大學和字節跳動的幾名研究人員,決定嘗試一下能否使用高質量 AI 合成圖片,來提升圖像分類模型的性能。
爲了避免 AI 合成的圖像過于單一、或是質量不穩定,他們還提出了幾類提升數據多樣性和可靠性的方法,幫助 AI 合成更好的數據集(來喂給 AI 的同類 doge)。
結果他們發現,不僅效果不錯,有的 AI 在訓練後,效果竟然比用真實數據訓練還要好!
目前這篇論文已經被 ICLR 2023 收錄。
把 AI 生成的數據喂給 AI
作者們分别從零樣本(zero-shot)、少樣本(few-shot)圖像分類、模型預訓練(pre-training)與遷移學習三個⽅⾯進⾏了探讨,并給出了提升數據多樣性與可靠性的方法。
零樣本圖像分類
零樣本(Zero-shot)圖像分類任務,指沒有任何⽬标類别的訓練圖⽚,隻有對⽬标類别的描述。
作者們先是提出了一種名爲語言增強(Language Enhancement,LE)的⽅法,用于增強合成數據多樣性。
具體來說,這種方法會給标簽 " 擴句 ",如果原标簽是簡單的 " 飛機 ",那麽經過 " 擴句 " 後的提示詞就會變成 " 一架盤旋在海灘和城市上空的白色飛機 "。
随後,還采用了一種叫做CLIP 過濾器(CLIP Filter)的⽅法确保合成數據的可靠性,即過濾掉合成質量不行的圖片,确保 AI 數據質量過硬。
在 17 個數據集上,相⽐此前效果最好的 CLIP 模型,相關⼤⼩模型均獲得了顯著提升(4.31%/2.90%),展示了合成數據的有效性。
少樣本圖像分類
少樣本圖像(Few-shot)分類任務,通常僅有極少數量(1~16 張)的⽬标類别圖⽚,與零樣本任務的區别是增加了類别與任務特定領域信息。
因此,作者們決定将域内數據(in-domain)的知識⽤于圖像⽣成,即将少量的⽬标類别圖⽚⽤于噪聲疊加的初始狀态(Real Guidance),進⼀步發揮⽣成模型的能⼒,從而進⼀步提升性能。
預訓練與遷移學習
模型預訓練(pre-training)任務,即将模型在⼤量數據上進⾏訓練,将訓練後的模型作爲 " 起始點 ",來幫助提升下遊任務的性能。
作者們利⽤合成數據,對模型進⾏了預訓練,并對數據量、數據多樣性程度、預訓練模型結構和預訓練⽅法進⾏了實驗研究。
最終發現:
⽤合成數據進⾏預訓練。已經可以達到甚⾄超越⽤真實數據預訓練的效果。
⽤更⼤的數據量和數據多樣性的合成數據,可以獲得更好的預訓練效果。
從模型結構和預訓練⽅法來看,ViT-based 模型(相比 convolutional-based 模型)、⾃監督⽅法(相比有監督⽅法)會更适合合成數據下的預訓練。
論文認爲,利⽤⽣成模型産⽣的合成數據來幫助圖像分類任務是可行的,不過也存在⼀定的局限性。
例如,如何處理特定任務的 domain gap 和數據多樣性之間的 trade-off,以及如何更有效地利⽤潛在⽆窮量的合成圖⽚⽤于預訓練,都是需要進一步去解決的問題。
作者介紹
一作何睿飛,香港大學在讀博士生 @CVMI Lab,指導老師爲齊曉娟老師,本科畢業于浙江大學竺可桢學院,研究方向是 data-efficient learning, vision-language model, knowledge distillation, semi/self-supervised learning。CVMI Lab 正在招收計算機視覺與深度學習方向的博士生,感興趣的夥伴可以直接 email 老師!
對于将 AI 合成圖像用于預訓練模型這件事,你還能想到更高效的方法嗎?
歡迎感興趣的小夥伴一起讨論 ~
論文地址:
https://arxiv.org/abs/2210.07574
項目地址:
https://github.com/CVMI-Lab/SyntheticData
* 本文系量子位獲授權刊載,觀點僅爲作者所有。
— 完 —
量子位 QbitAI
վ ' ᴗ ' ի 追蹤 AI 技術和産品新動态
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~