谷歌又被曝出有核心員工離職了!
這次跑路的竟是 DeepMind 的核心技術大佬,Gemini 項目的四位主要開發者之一,Ioannis Antonoglou。
上圖左半部分列出了 Gemini 項目的 36 位領導者,自去年九月以來,包括 Ioannis Antonoglou 在内,已有四位主要成員離開。
Ioannis Antonoglou
在 OpenAI 以及背後微軟的擠壓之下,谷歌的日子貌似不太好過。
去年裁員 12000 多人,光遣散費就花了幾十億美元,劈柴還宣布今年要持續裁員一整年,
而一邊的 OpenAI 也在花心思挖角谷歌的高級人才。
另一方面,AI 行業的大佬們在大模型帶來的變革中發現了新的風口,——比如 AI 智能體(Agent)。
越來越多的初創公司試圖在這個領域嶄露頭角,Antonoglou 這次離職的目标就是創辦自己的人工智能公司,并瞄準 Agent 這個市場。
Antonoglou 目前的兩位合夥人,Sherjil Ozair 和 Misha Laskin,也是之前一起參與 Gemini 項目的同事。據一位知情人士透露,他們已經開始爲自己的初創企業籌集資金。
——谷歌的科技帝國開枝散葉 ...... 也未嘗不是一件好事?
當然,如果這家新公司決定涉足智能體領域,也将面臨衆多競争對手。
近期的初創公司,包括獲得 General Catalyst 支持的 Adept(已籌集 4.3 億美元)和獲得 Nvidia 支持的 Imbue(已籌集超過 2 億美元),都在從事智能體的研發。
其他的初創公司還包括 HyperWrite 和 Lindy,而大公司沒準也會來插一腳。
Antonoglou 于 2012 年加入 DeepMind。
2013 年,Antonoglou 作爲七位作者之一,發表了一篇關于深度強化學習的論文,能夠在無需人類幹預的情況下學習,并掌握 Atari 視頻遊戲。
這篇工作在 NIPS 2013 的 Deep Learning Workshop 中展示,而這一突破也引起了谷歌和 Facebook 領導層的注意,他們認識到這可以用于增強自己的廣告業務。
2014 年,谷歌以超過 5 億美元的價格收購了隻有約有 75 名員工的 DeepMind。之後 Antonoglou 參與開發了擊敗圍棋頂尖人類選手的 AI。
有趣的是,OpenAI 的團隊也受此影響,采用類似技術開發了一個能玩 Dota 2 的 AI 系統。
還有上面提到的 Antonoglou 的合夥人 Sherjil Ozair 也是業内的大佬。
Ozair 去年夏天離開 DeepMind 加入 Tesla,他之前也同 Antonoglou 合作發表過一些文章,比如下面這篇來自 PMLR'2021。
而他更加有名的一篇工作是我們大部人都非常熟悉的「GAN」(生成對抗網絡)。
這篇開創性的工作爲後續生成式 AI 模型的發展奠定了基礎。
「開枝散葉」
除了上面介紹的大佬,在過去兩年裏,DeepMind 和 Google Brain 的一些員工紛紛離職,開創了自己的新公司。
包括開發開源 AI 模型的 Mistral AI,以及同樣緻力于生成式 AI 模型的 Sakana AI 和 Reka AI。
最近,又有三位在谷歌負責圖像和音樂方向的 AI 研究人員離職,據知情人士透露,他們成立了自己的 AI 初創公司 Uncharted Labs。
這也揭示了谷歌内部可能存在的結構性問題,推出的 AI 産品錯失良機,而頂尖的研究人員則決定抓住外部機遇,抓住風險投資者對 AI 領域新公司的熱情。
文件顯示,這三位創始人已經籌集了 850 萬美元,最近幾個月,他們還會見了包括 Andreessen Horowitz 在内的潛在投資者。
三人團隊的總裁是 David Ding,他此前是 Google DeepMind 的技術負責人。
而另外兩位 Charlie Nash 和 Yaroslav Ganin,是 Ding 之前在 DeepMind 的團隊成員。Ding 和 Ganin 在谷歌工作了五年以上。
Ding 之前的團隊還有一名成員 Conor Durkan 也在去年離職了。
在 DeepMind,這四個人參與了一個項目,使 AI 能夠根據用戶的簡單描述創造出原創的圖像和音樂。
去年 11 月,DeepMind 公開了音樂生成模型 Lyria,能夠從頭開始創作歌曲,包括利用 Charlie Puth 和 John Legend 等藝術家的人聲。
這幾個人還參與了 Imagen 2 的開發,作爲 Midjourney 和 DALL · E 3(OpenAI )的競品。
面對這不容樂觀的水土流失,谷歌被逼無奈,隻好咬牙提高頂尖 AI 研究人才的待遇,使用特别的股票獎勵措施。
然而,對于那些緻力于生成式 AI 的初創公司來說,輕松獲得風險投資的吸引力極大。
根據 PitchBook 和 National Venture Capital Association 的數據顯示,2023 年在美國,超過三分之一的風險投資湧向了 AI 領域。
AI 智能體未達預期
AI 智能體的概念随着生成式 AI 大模型的發展而開始流行,Agent 可以自動幫助人類處理線上購物、訂票、會議等。
比如 AutoGPT 和 BabyAGI,承諾能做到從預訂機票到回複短信等一切自動化操作。然而,它們很快就暴露出了技術上的限制。
包括 OpenAI 推出的相關産品,目前也沒有什麽實質性的進展。
現有的 Agent 執行任務的能力參差不齊,還容易重複相同的行爲模式,研究人員正也嘗試新的方法解決這些問題,比如開發更适合智能體任務的專用軟件,而不是依賴現成的模型。
HyperWrite 的聯合創始人兼 CEO Matt Shumer 表示,AI 智能體之所以未能如預期般發展,有幾個原因。
目前的智能體雖然能夠規劃并将目标分解成子任務(比如将競争對手研究,分解爲評估管理層、預測銷售額和成本計算),但是在執行這些子任務時往往遇到困難。
同自動駕駛一樣,智能體經常會被從未遇到過的「邊緣情況」所困擾,這種失敗可能會削弱消費者的信任。
另外,這個行業似乎面臨着與大型語言模型開發商同樣的問題:他們正試圖用風險資本解決一個長期的研究問題,而投資者卻希望盡早看到成品和投資回報。
解決方案
傳統的 AI 智能體通常由三部分構成:
一是像 GPT-4 這樣的大語言模型,負責規劃完成目标所需的任務;二是向量數據庫,幫助智能體記住以往的行動和目标相關的重要背景信息;三是 LangChain 等工具,負責将這些組件連接起來。
而 HyperWrite 正在嘗試一種截然不同的結構。根據請求的複雜程度,HyperWrite 能将客戶的請求分配給不同的模型處理。
Shumer 表示,GPT 等傳統大語言模型僅能處理簡單的網絡搜索,而 HyperWrite 的定制模型則更擅長分析網頁内容并與之交互,如點擊不同的按鈕。HyperWrite 目前已有數千名付費用戶。
與此類似,Imbue 也在開發多種模型,包括大語言模型和多模态模型,以幫助 AI 智能體解決軟件編碼等問題。
爲此,Imbue 團隊特别标注訓練數據,使模型能夠理解博客文章或軟件代碼背後的邏輯。
Imbue 的開發者會對模型訓練數據中的代碼行進行注釋,說明它們是如何爲更大的軟件項目貢獻的。這樣一來,模型便能學會單行代碼如何協同工作,共同實現一個更廣泛的目标。
另一種智能體的發展方向是專注于特定的任務。
比如,Imbue 使用了多個專門解決特定問題的智能體,從修正代碼格式錯誤到分析 AI 政策趨勢。這種專注于特定領域的方法減少了智能體遇到的問題邊緣情況。
Shumer 認爲,随着時間的推移,通用型模型将最終超越專用于特定任務的模型,但 CRV 的 Vivian Cheng 認爲,由于技術還處于初期階段,短期到中期内很難開發出一個可靠的通用型智能體。
——也許「通用」和「專用」會在未來的某個時間點相遇吧,讓我們拭目以待。