最近的谷歌像個大漏勺,這不,又有 AIGC 核心成員聯手跑路咯!
量子位獨家獲悉,這回跟谷歌 say byebye 的,是文生圖核心團隊—— AI 繪畫模型Imagen 論文的四位核心作者,出走目的是要搞自己的 AI 公司。雖然公司名稱暫未對外公布,但新公司将一以貫之的路線是很清楚的:
以 Imagen 爲基礎,沿着原來的項目做下去,不僅繼續做文生圖,還要做視頻方向。
核心人才創業,自然少不了 VC 塞錢——已經按1 億美元的驚人天使估值完成了首輪融資,而且更多 VC 想給錢而趕不上、投不進。
這也算是文生圖、文生視頻、AIGC 賽道上,最知名的研究團隊之一了。
文生圖骨幹成員共創 AIGC 新公司
新公司聯創四人,Chitwan Saharia、William Chan、Jonathan Ho 以及 Mohammad Norouzi,都出自谷歌。
他們之前精力重點放在 AIGC 的文生圖闆塊,是谷歌用來對抗 DALLE-2 的大殺器 Imagen 的論文共同作者,位置都挺重要的那種。
先來介紹一下Chitwan Saharia,也是 Imagen 的共同一作。
Chitwan 本科畢業于孟買理工學院計算機科學與工程專業,在孟買理工學院和蒙特利爾大學都當過程序和算法方面的研究助理。2019 年加入谷歌,base 多倫多,花了 3 年時間從二級軟件工程師做到高級研究科學家,去年 12 月從谷歌離職。
Chitwan 有語音識别、機器翻譯的經驗,在谷歌工作時,主要負責領導 image-to-image 擴散模型的工作。
第二位William Chan,也是 Imagen 論文共同一作。他同樣出身計算機工程,先後就讀于加拿大滑鐵盧大學、卡内基梅隆大學,中間在新加坡國立大學當過 1 年交換生。
在卡内基梅隆大學拿下博士學位後,William 還在加拿大最大的社區學院之一喬治布朗學院,主攻烘焙和烹饪(?),學了 3 年。
Willian 從 2012 年起加入谷歌,于 2016 年成爲谷歌大腦的一份子,去年 5 月離職時,他已經是谷歌大腦多倫多的研究科學家了。
然後要介紹的是Jonathan Ho,UC 伯克利博士畢業。
他不僅是 Imagen 論文的 core contribution,還是Diffusion Model 奠基之作《Denoising Diffusion Probabilistic Models》的一作。
博士畢業于 UC 伯克利計算機科學專業的 Jonathan,之前在 OpenAI 當過 1 年的研究科學家,後來在 2019 年加入谷歌,共工作了 2 年零 8 個月,去年 11 月以研究科學家的身份從谷歌離職。
新公司的最後一位聯創叫Mohammad Norouzi,也是 Imagen 論文的共同一作。
△Mohammad Norouzi
他在多倫多大學計算機科學博士就讀期間,拿到了谷歌 ML 博士獎學金。畢業後他加入谷歌大腦,在那兒工作了 7 年,在谷歌的最後 title 是高級研究科學家,工作重點是生成模型。
同時,Mohammad 也是谷歌神經機器翻譯團隊的原始成員,SimCLR 的聯合發明人。他在 GitHub 主頁上小小地透露了自己的最近動态:
目前,我在一家初創公司工作,公司使命是推進人工智能的發展水平,幫助人類提高創造力。
我們正在招聘!
這句話以外,關于新公司的更多信息,四人在任何社交平台都沒有更詳細的透露。
這已經是谷歌最近漏出去的第 n 波人了。
就拿剛剛過去的 2 個月來說,先是包括顧世翔(Shane Gu,‘讓我們一步一步地思考’研究者)在内的至少 4 名谷歌大腦成員加入 OpenAI;情人節時,Hyung Won Chung 和 CoT 最早的一作 Jason Wei 攜手組團叛逃OpenAI。
本周三,您猜怎麽着?嘿,又跑了一個:
OpenAI 狂喜,隻有谷歌大漏勺本勺受傷的世界誕生了。
Imagen 是什麽?
了解完谷歌漏走的這四個人,回頭來說說爲他們職業生涯赢得掌聲的 Imagen 項目。
Imagen 是谷歌發布的文生圖模型,發布時間在 DALL-E 2 新鮮出爐一個月以後。
本文開頭放的熊貓震驚表情包,就是朝 Imagen 輸入 " 一隻非常快樂的毛茸熊貓打扮成了在廚房裏做面團的廚師的高對比度畫像,他身後的牆上還有一幅畫了鮮花的畫 " 後,得出的一張要素完備的 AI 生成畫作。
(不好意思,請自行斷句)
在 Imagen 出現之前,文生圖都共用一個套路,那就是 CLIP 負責從文本特征映射到圖像特征,然後指導一個 GAN 或 Diffusion Model 生成圖像。
Imagen 不走尋常路,開辟了 text-to-image 新範式:
純語言模型隻負責編碼文本特征,具體 text-to-image 的工作,被 Imagen 丢給了圖像生成模型。
具體來講,Imagen 包含一個凍結的語言模型 T5-XXL(谷歌自家出品),當作文本編碼器。T5-XXL 的 C4 訓練集包含800GB的純文本語料,在文本理解能力上比 CLIP 強不少,因爲後者隻用有限圖文對訓練。
圖像生成部分則用了一系列擴散模型,先生成低分辨率圖像,再逐級超采樣。
依賴于新的采樣技術,Imagen 允許使用大的引導權重,所以不會像原有工作一樣使樣本質量下降。這麽一來,圖像具有更高的保真度,并且能更好地完成圖像 - 文本對齊。
概念說起來簡單,但 Imagen 的效果還是令人大爲震撼的。
生成的狗子飙車技術一流:
比起爆火的 DALLE-2,Imagen 能更準确地理解同時出現兩個顔色要求的情況:
一邊繪畫一邊寫字這種要求,Imagen 也成功完成,不僅寫得對,還能加光影魔術手般的煙花特效(不是)。
以及對後來研究更有幫助的是,谷歌通過 Imagen 的研究,優化了擴散模型。
首先,增加無分類器引導(classifier-free guidance)的權重可以改善圖文對齊,同時卻會損害圖像保真度。
爲了解決這個 bug,在每一步采樣時引入動态阈值(dynamic thresholding)這個新的新的擴散采樣技術,來防止過飽和。
第二,使用高引導權重的同時在低分辨率圖像上增加噪聲,可以改善擴散模型多樣性不足的問題。
第三,對擴散模型的經典結構 U-Net 做了改進,變成了Efficient U-Net。後者改善了内存使用效率、收斂速度和推理時間。
後來在 Imagen 上微調,谷歌還推出了能 " 指哪打哪 " 版本的文生圖模型DreamBooth。隻需上傳 3-5 張指定物體的照片,再用文字描述想要生成的背景、動作或表情,就能讓指定物體 " 閃現 " 到你想要的場景中。
比如醬嬸兒的:
又或者醬嬸兒的:
大概是 Imagen 效果太過出色,劈柴哥後來親自宣發的谷歌 AI 生成視頻選手大将,就叫做 "Imagen Video",能生成 1280*768 分辨率、每秒 24 幀的視頻片段。
啊,等等,谷歌有 Imagen Vedio,這和四人的新公司不是撞方向了嗎?
仔細看了下論文,無論是 Imagen 還是 Imagen Video,各自都有大篇幅涉及風險、社會影響力的内容。
出于安全、AI 倫理和公平性等方面考慮,Imagen 和 Imagen Vedio 都沒有直接開源或開放 API,甚至連 demo 都沒有。
哪怕市面上出現開源複刻版本,也不是最正宗的味道。
此前就曝出過在谷歌每年的内部員工調查 "Googlegeist" 中,員工表示對谷歌執行能力不佳的質疑。也許,這四人出走,繼續做 Imagen,并做 Imagen 的視頻版,說不定就是爲了想把項目放到一個更開放的 AI 環境。
而且這種出走創業,也是熱錢大錢向 AIGC 洶湧的結果。
所以既然 AIGC 的創投熱潮已經在太平洋那頭開啓,那應該在太平洋這頭也不會悄無聲息。
或許你已經聽說了一些同樣的大廠出走創業,歡迎爆料說說 ~~
— 聯系作者 —