引用超 85000 次的經典論文GAN 獲 NeurIPS2024 時間檢驗獎後,它的起源和背後故事也被抛了出來。
要從Yoshua Bengio 實驗室的一次頭腦風暴說起。
Bengio 召集實驗室成員,提出了一個富有挑戰性的設想:
訓練一個确定性的生成網絡 g,該網絡僅在輸入 z 中包含随機噪聲。這個網絡的輸出 x=g ( z ) 應該是從某個分布 p ( x ) 中抽取的樣本。輸出可以是任何形式:圖像、音頻、文本。
正當衆人皆無頭緒之時,一個在當時看似滑稽且幾乎無意義的想法揭開了 GAN 的序幕:
如果能有另一個神經網絡充當判别器,會怎樣?
作者之一 Sherjil Ozair,一邊講述着這段經曆,一邊還透露曾有 DeepMind 研究員向他開玩笑,說他可能已經完成了最偉大的工作,可以直接退休了。
但他認爲事實并非如此。
CNN 感覺像是最後的發明,但并不是。
GAN 感覺像是最後的發明,但也不是。
LSTM、ResNet、DQN、AlphaGo、AlphaZero、MuZero 都并非終結。
Transformer 和大語言模型,亦不是最後的發明。
這項出自 Yoshua Bengio、lan Goodfellow 等一衆大佬,引用超過 85000 次,被 NeurIPS2024 官方評價爲 " 生成建模的基礎部分之一,在過去 10 年中激發了許多研究進展 " 的研究。
究竟是如何煉成的?
Sherjil Ozair 講述背後故事
以下是 Sherjil Ozair 的完整自述:
非常高興聽到 GAN(生成對抗網絡)在 2024 年 NeurIPS 大會上獲得時間檢驗獎。
NeurIPS 時間檢驗獎是授予那些在十年時間裏經受住考驗的論文。
" 我 " 花了一些時間回顧 GAN 是如何産生的以及過去十年中人工智能的發展。
2012 年初,當 " 我 " 還是印度理工學院德裏分校的本科生時," 我 " 偶然發現了 Geoffrey Hinton 在 Coursera 上的一門深度學習課程。
深度學習當時是機器學習中一個邊緣化且小衆的分支領域,它承諾能實現更多的 " 端到端 " 學習,并且更接近人類大腦的工作方式。
這門課非常精彩。它不僅很好地解釋了深度學習的原理,還充滿了 Hinton 特有的英式幽默和非傳統思維。
比如,他建議 " 我們 " 這樣可視化高維空間:
要處理 14 維空間中的超平面,想象一個 3 維空間,然後大聲對自己說 "14",每個人都是這麽做。
但請記住,從 13 維到 14 維的轉變,其增加的複雜性與從 2 維到 3 維的轉變一樣大。
出于好奇興奮地想學習更多知識," 我 " 開始仔細研究所有能找到的資料。
當時主要是一些傑出研究者發表的學術論文,比如Yoshua Bengio,其中很多都保存在他實驗室的網站上。
2012 年,Quora 非常火爆,Yoshua 經常在 Quora 上回答有關深度學習的問題。
" 我 " 真誠地感謝他幫助像 " 我 " 這樣的本科生理解深度學習。" 我 " 通過 Quora 聯系他,表達謝意。
令 " 我 " 非常驚喜的是," 我 " 不僅收到了回複,還收到了一份他實驗室的實習邀請。
這是一次命運的相遇,而當時的 " 我 " 對這次交流和即将展開的旅程的重要性和影響力還隻有一點點模糊的認識。
" 我 " 由衷地感激 Yoshua Bengio 爲這個世界和爲 " 我 " 所做的一切。
" 我 " 通過了面試獲得了實習機會,2014 年夏天,将在 Yoshua 的 LISA 實驗室實習。
本想 2013 年就實習的,但印度理工學院的制度要求學生必須在第三學年的暑假在他們認可的公司實習。
2014 年 5 月," 我 " 飛抵蒙特利爾,來到了實驗室。
剛見到 Yoshua,他就立馬把 " 我 " 拉進了一個房間,裏面坐着的還有 Ian Goodfellow 和 Aaron Courville。
Yoshua 繼續解釋着他最近一直在思考的一個新想法:
設想構建一個确定性的生成網絡 g,隻在輸入 z 中包含随機噪聲。這個網絡的輸出 x=g ( z ) 應該是來自某個分布 p ( x ) 的樣本,可以是任何形式:圖像、音頻或文本。
他強調這就是 " 我們 " 需要訓練的目标。
但怎麽訓練呢?在這種 " 隐式 " 網絡中,概率 p ( x ) 并沒有明确表達。
他提出應該對生成器的輸出(生成分布)和某個樣本數據集(可以是圖像、音頻等)進行 " 雙樣本分布匹配 "。
但如何進行這種分布匹配仍然不明确。
作爲一個年輕天真的本科生," 我 " 提出了矩匹配,但 " 我們 " 都知道矩匹配可能無法應對高維數據。小組裏也讨論了其他想法,也都感覺不夠有說服力。
不過,Yoshua 對訓練一個确定性的、消耗噪聲并産生樣本的生成神經網絡的願景和熱情令人印象深刻且富有啓發性。
團隊決定私下繼續思考這個問題。
在 Les Trois Brasseurs 餐廳的一次實驗室聚餐中,Ian Goodfellow 突然想到了一個在當時看似滑稽且幾乎毫無意義的主意:
如果讓另一個神經網絡來充當判别器會怎樣?
這是一個開拓前沿的時刻。
當時,神經網絡的訓練還相當 " 原始 "。通常做法是:
建立一個主神經網絡,輸入數據,得到一個預測結果,對其應用一個數學損失函數,然後使用梯度下降來優化這個網絡。
而 Ian 的想法則把損失函數本身設想成一個可學習的神經網絡。不是優化一個固定的數學損失,而是用另一個 " 判别器 " 神經網絡來提供損失值和梯度,用于訓練 " 生成器 " 神經網絡。
這個想法自然招緻質疑。整個系統會不會崩潰到退化輸出?判别器從何而來?處處都是先有雞還是先有蛋的困境。
但 Ian 對此也早有腹案。他提出讓判别器和生成器在一個零和博弈中對抗:
生成器試圖産生與真實數據 " 難以區分 " 的輸出,而判别器則要設法分辨看到的是生成樣本還是真實樣本。
也許這能行?第二天,實驗室所有成員都收到了一封郵件。
在一個充斥着編程和運行實驗的長夜,Ian 成功讓第一個生成對抗網絡運行起來。
這些是在 MNIST 數據集上産生的第一批樣本。
當時 " 我 " 正在研究類似的東西,用非神經網絡判别器進行訓練,但效果遠不及預期。
于是 " 我 " 決定轉而幫助 Ian 研究 GAN。距離 NeurIPS 2014 的提交截止日期隻有一周了。" 我們 " 決定全力以赴,應該能趕上提交一篇論文。
在接下來的幾天裏," 我們 " 設置了評估方法來與現有的生成模型進行比較,嘗試了不同的架構、噪聲函數和博弈公式。
Jean、Yoshua 和 " 我 " 發現 GAN 博弈是收斂的,并且在平衡狀态下最小化了 Jensen-Shannon 散度。
" 我們 " 堅持了下來,在最後一周完成了所有工作,并提交了一篇論文到 NeurIPS。
GAN 被接收爲海報展示論文(posted presentation)。
" 我 " 記得雖然大家都很興奮,但也都知道 GAN 的訓練動态非常不穩定。大部分合作者開始研究其它模型架構,試圖解決在 GAN 中發現的問題。
GAN 在 12 月份進行了展示,卻基本上沒有引起注意。
幾個月後,2015 年 8 月,Alec Radford開始發布他一直在研究的卷積 GAN 的樣本。
沒錯,就是那個幾乎參與了 OpenAI 所有重大突破的 Alec Radford。2015 年,他正在研究卷積神經網絡、批量歸一化和 GAN。
" 我 " 無法完全展現 DCGAN 之後 GAN 引發的巨大關注。
但 " 我 " 想強調的是,GAN 的演進過程被恰如其分地用來象征 AI 整體的進步。
這張展示圖像生成驚人發展的圖片已經過時了,因爲現在的圖像生成模型已經能生成百萬像素級的圖像,甚至可以生成視頻。
至于 " 我 " 個人的故事,GAN 作爲 " 我 " 的第一篇學術論文既是福也是禍。一位 DeepMind 的研究員曾開玩笑說," 我 " 可能已經可以退休了,因爲 " 我 " 可能已經完成了自己最偉大的工作。
但是 " 認爲曆史已經終結 " 可能是 AI 領域最大的錯誤。" 我們 " 總是傾向于認爲 " 就是這個了,這是最後的發明 "。但事實從來都不是這樣。
CNN 曾經感覺像是最後的發明,但并不是。
GAN 曾經感覺像是最後的發明,但并不是。
LSTM 曾經感覺像是最後的發明,但并不是。
ResNets、DQN、AlphaGo、AlphaZero、MuZero 都不是最後的答案。
回過頭來看,這些想法總是顯得很滑稽。但是想想現在,Transformer 和大語言模型被認爲是最後的發明。
但它們也不是。
" 我 " 最近離開了前沿 AI 實驗室的圈子,開始創辦一家公司來構建一些真正令人驚歎的東西。" 我 " 很快會分享更多相關信息。敬請關注。
感謝 NeurIPS Conference 授予 GAN 時間檢驗獎,也感謝這些對抗者們:Ian Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu、David Warde-Farley、Aaron Courville、Yoshua Bengio
也爲 Seq2Seq 論文作者們表示祝賀。
Ian Goodfellow 開麥
Mehdi Mirza 将這段經曆分享出來後吸引到不少網友圍觀,網友們看得津津有味:
沒想到論文一周就寫出來了。
好一段精彩的曆史回顧!在 "Attention is all you need" 之前,GAN 才是主流。
GAN 論文一作 Ian Goodfellow 也激情開麥:
如果你是那個時代的親曆者,值得一讀以懷舊;如果你不是,也能通過這些文字一窺當年的情形。
關于 GAN 論文的更多細節,可以點擊這裏查看:。
參考鏈接:https://x.com/sherjilozair/status/1864013580624113817
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>