爆炸消息——
ViT 三大核心作者集體離職谷歌 DeepMind。下一站:OpenAI!
他們分别是翟曉華(Xiaohua Zhai)、盧卡斯 · 拜爾(Lucas Beyer)、亞曆山大 · 科列斯尼科夫(Alexander Kolesnikov)。
相關消息已被本人證實,三人均官宣了新動向。
2021 年,他們三人作爲共同一作的計算機視覺領域神作 ViT 發布即刷新 ImageNet 最高分。
這項研究證實了 CNN 在 CV 領域不是必需的,Transformer 從 NLP 跨界,一樣可以取得先進效果。開創了 Transformer 在 CV 領域應用的先河。
目前這篇論文被引用量已超過4.9 萬。
此外,他們還共同提出了 SigLIP、PaliGamma 等 SOTA 級工作。
幾周後,他們将正式加入 OpenAI 蘇黎世實驗室。
值得一提的是,Wired 方面消息稱,三人是被 OpenAI 挖走的。
網友評論:能撬動這一 " 鐵三角 " 黃金組合,OpenAI 真的太幸運了。
ViT 三大核心作者投奔 OpenAI
Xiaohua Zhai(翟曉華)
此前他是 Google DeepMind 的高級研究員,領導着蘇黎世一個多模态研究小組。重點研究多模态數據(WebLI)、開放權重模型 ( SigLIP、PaliGemma ) 以及文化包容性。
目前谷歌學術引用數超六萬多。
2014 年他畢業于北京大學,獲得計算機系博士學位;本科畢業于南京大學。一畢業就前往谷歌蘇黎世工作。
Lucas Beyer
這位同樣也是谷歌 DeepMind 蘇黎世小組的一位成員,共同領導着 DeepMind 的多模态研究團隊和基礎設施。
目前已經撰寫超 50 篇論文,被 CVPR、NeurIPS、ICCV 等這些頂級會議接收。
據他個人官網中介紹,他在比利時長大,曾夢想制作電子遊戲以及從事 AI 研究。自我認定爲「自學成才的黑客和研究科學家,緻力于創造飛凡實物」。
他在德國亞琛工業大學學習機械工程,并在那裏獲得了機器人感知和計算機視覺博士學位。2018 年加入谷歌。
Alexander Kolesnikov
2018 年以來,他就在谷歌大腦,現爲 DeepMind 團隊工作。之前主要成就包括訓練 SOTA 視覺模型 *(從 2019 年到 2021 年都實現了 ImageNet SOTA);開放權重模型(SigLIP 和 PaliGemma),以及神經架構方面的工作:BiT、ViT、MLP-Mixer 和 FlexiViT。
除此之外,編寫靈活、高性能的研究基礎設施,尤其是 Jax。
此前,他在奧地利科學技術研究所(ISTA)攻讀博士學位,研究方向是弱監督學習和圖像生成模型。
曾是谷歌 CV 的 " 黃金鐵三角 "
在谷歌任職期間,三人多次合作并帶來了影響領域發展的重要工作。
其中最重要的一篇莫過于 ViT。
這篇研究驗證了 Transformer 架構在計算機視覺領域的通用性。在它的基礎上衍生出了 Swin Transformer、DeiT(Data-efficient Image Transformers)等。
它創新性提出将圖像分割成固定大小的塊(patches),并将每個塊視爲一個序列元素,與 NLP 中的單詞類似。然後,這些塊通過變換器進行處理。
在許多視覺任務中,ViT 在性能上超過了傳統的 CNN 模型,尤其是在大規模數據集上進行訓練時表現尤爲突出。例如,在 ImageNet 分類任務中,ViT 取得了與最先進的 CNN 模型相當甚至更好的結果。
此外他們還合作推出了 MLP-Mixer、BiT(CV 界的 BERT)等領域内知名工作。
參考鏈接:
[ 1 ] https://www.wired.com/story/openai-hires-deepmind-zurich/
[ 2 ] https://kolesnikov.ch/
[ 3 ] https://sites.google.com/view/xzhai
[ 4 ] https://lucasb.eyer.be/