" 最開始我就知道谷歌相當有希望,谷歌能發展到現在的規模不過是水到渠成。"
這位谷歌首席科學家在谷歌度過了近乎一半的人生,對谷歌的喜愛不減反增,到現在還依然堅守着谷歌最初的願景并爲此奮鬥:
組織全球信息并使其普遍可用和有用
Jeff Dean 還記得剛加入谷歌的時候,每到周二的流量高峰期就開始擔心系統會不會崩潰,還好後來及時增加了設備,對代碼和搜索功能做了更多優化,谷歌搜索這才步入了正軌。
後來吳恩達在谷歌擔任顧問,Jeff Dean 和他商定了大型神經網絡的研究目标,最終促成了 Google Brain 團隊的成立。
2011 年,伴随着質疑和不信任,Google Brain 終于成功訓練出比當時其他模型大 50 到 100 倍的神經網絡。
而在同一時期的大洋彼岸,DeepMind 的研究才剛剛開始。
Jeff Dean 想做的一直都是高質量、大規模的多模态模型。當時的 DeepMind 和 Google Brain 有着類似的研究目标,隻是選擇了強化學習和模型擴展兩個不同的方向。
收購 DeepMind 後,Jeff Dean 推動了兩大團隊的融合,Google DeepMind 應運而生。
強強聯合之下,Google DeepMind 交出了一份令人滿意的答卷,Gemini。
Gemini 的優勢不止在于多模态,更在于 " 化繁爲簡 " 的思路。
受益于底層的 Transformer 架構,Gemini 能夠并行處理大量數據,相比傳統遞歸模型,提升了 10 到 100 倍。更重要的是,Gemini 能把不同類型的數據通過抽象轉換爲相同的高維表示,把表面意思及其以外的聯合意義和表示整合起來。
舉個例子,Gemini 不僅能識别 " 牛 " 這個詞語,還能發散到和牛有關的語音、圖片等等其他内容,反過來輸入這些相關的内容也能觸發 Gemini 對 " 牛 " 的多層次理解。
對用戶來說,一切都變得簡單、直觀。
無需切換工具或者輸入形式,用戶就能通過文字、語音、圖片等方式與系統互動。
而系統也會自動整合各種輸入方式,生成最直觀、最易于解讀的結果。文本可以轉化爲圖像,圖像也可以轉化爲語音,文字與圖像的融合也能自動實現。
對開發團隊來說,這一技術的實現非常複雜,但 Gemini 依然成功突破了這些挑戰。
然而,Jeff Dean 的雄心遠不止于此。他現在緻力于開發更深入人們生活的人工智能工具,涵蓋從日常助理到醫療、AI 教育等多個領域。
多模态模型的前景和谷歌一樣充滿了可能。Jeff Dean 深信,從過去到未來,這一領域将持續表演出巨大的潛力和希望。
前幾天,Jeff Dean 做客 DeepMind 播客,講述了他和谷歌的這段過去、DeepMind 與 Gemini 背後的故事,以及自己對多模态模型的探索和理解。
完整播客視頻可以點以下鏈接觀看:
https://www.youtube.com/watch?v=lH74gNeryhQ
AI 科技評論摘取了部分播客内容,做了不改原意的精編處理:
90 年代的谷歌
Hannah Fry:你在谷歌工作了 25 年,早期的谷歌是什麽樣的?90 年代剛加入的時候,是不是大家的筆記本上貼滿了貼紙,穿着人字拖在編程?
Jeff Dean:那時沒有筆記本,我們用的是大 CRT 顯示器,占了很多桌面空間。我那時的桌子其實是一扇門架在兩隻馬凳上,你可以站在桌下,用背撐起來把桌子調高。
我剛開始工作時,我們的辦公室很小,大概隻有這個房間的三倍大。
Hannah Fry:整個谷歌?
Jeff Dean:整個谷歌。那時,我們在帕洛阿爾托大學大道上的一個小辦公室裏,正好在現在的 T-Mobile 手機店上面。那時候真的非常激動,盡管我們是個小公司,但看到越來越多人使用我們的高質量搜索服務真的很興奮。流量每天和每周都在不斷增長。
我們一直在努力避免每周二中午的流量高峰時系統崩潰。這需要我們迅速增加計算機資源,優化代碼提高速度,并開發新的功能,讓相同的硬件能夠服務更多用戶。
Hannah Fry:有沒有哪個時刻讓你們意識到——這個公司真的會變得很大?
Jeff Dean:我想,從我剛加入公司的時候,你就能看出來流量增長非常快。
我們覺得,隻要專注于提供高質量的搜索結果,快速滿足用戶需求——我們其實希望用戶能盡快離開我們的網站,找到他們需要的信息——這是一個很成功的想法。
用戶似乎也喜歡我們的服務,所以從最開始就看起來相當有希望。
Hannah Fry:從 " 相當有希望 " 到最後的發展規模之間差距不小。你感到驚訝嗎?
Jeff Dean:确實,我們的領域擴展确實難以預料,比如自動駕駛汽車。我們的産品組合逐步拓寬,從最初的搜索引擎到現在的各種産品,例如通過 Gmail 幫助用戶管理郵件。
這種擴展是自然的,因爲它們解決了實際問題,讓我們不僅僅擁有一個産品,而是擁有了用戶日常使用的多種産品。
Hannah Fry:回顧這麽多年的發展,你覺得谷歌始終是一個搜索公司,還是實際上它是一個 AI 公司,隻是裝作是個搜索公司?
Jeff Dean:我認爲公司解決的許多問題實際上都依賴于 AI。在這 25 年的曆程中,我們逐步攻克了一些複雜的 AI 問題,并不斷取得進展。
雖然谷歌一開始專注于搜索,但我們不斷将這些新的 AI 技術應用到搜索和其他産品中。因此,可以說我們一直在利用 AI 推動公司的發展。
Hannah Fry:你認爲谷歌未來會一直是一個搜索公司嗎?或者說,它現在是否仍然是一個搜索公司?它正在發生改變嗎?
Jeff Dean:我非常喜歡谷歌的一點是,即便 25 年過去了,我們的使命依然非常有意義—— " 組織全球信息并使其普遍可用和有用 "。
我認爲,Gemini 幫助我們在理解各種信息方面邁出了重要一步——包括文本數據和軟件代碼(它也是一種文本,隻是更複雜)。我們不僅能閱讀文本,還能通過視覺和聽覺接收信息。
我們的目标是讓模型能夠處理各種輸入形式,并生成相應的輸出,例如文本、音頻、對話、圖像或圖表。
我們真正想創造的是一個能夠處理所有這些模式并根據需要生成輸出的模型。
神經網絡的早期探索
Hannah Fry:你還記得你第一次接觸神經網絡的情景嗎?
Jeff Dean:是的,當然。神經網絡有着一段有趣的曆史。
AI 其實是一個非常古老的學科,AI 的早期階段是在研究如何定義事物運作的規則。那是在 20 世紀 50、60、70 年代左右。
神經網絡大約在 70 年代出現,在 80 年代末和 90 年代初掀起了一陣熱潮。
實際上,我在 1990 年是明尼蘇達大學的本科生,當時我在上并行處理課程,這個課程探讨的是如何将一個問題分解成可以在不同計算機上并行處理的部分,讓這些計算機協同工作來解決一個問題。
Hannah Fry:我猜那時候的計算能力還不如現在那麽強大,你們是怎麽讓計算機協同工作的?
Jeff Dean:神經網絡是一種特殊的機器學習方法,它通過模拟人腦神經元的工作原理來進行學習。每個人工神經元與下層的其他神經元相連接,分析接收到的信号,然後決定是否将信号傳遞到更高層次。
神經網絡由多個層次的人工神經元組成,高層神經元通過分析下層神經元的信号進行學習。
例如,在圖像識别任務中,最底層的神經元可能學習到基礎特征,比如顔色斑點或邊緣;下一層則可能識别出具有特定顔色邊框的形狀;更高層的神經元可能識别出這些形狀組成的具體物體,如鼻子或耳朵。
通過這種逐層的抽象學習,神經網絡能夠發展出非常強大的模式識别能力。這也是 1985 至 1990 年間人們對神經網絡充滿興奮的原因。
Hannah Fry:不過我們說的是非常非常小的網絡,對吧?
Jeff Dean:是的,非常小的網絡。所以它們無法識别出人臉或汽車這樣的東西,隻能識别一些人工生成的簡單模式。
Hannah Fry:就像一個網格,可能能識别出一個十字形之類的東西。
Jeff Dean:或者手寫的數字,比如這是一個 7 還是 8。
那時候的确算是很了不起了。但它們的能力僅限于解決這種問題,而那些基于邏輯規則的系統,比如如何定義一個 "7",其實在處理各種淩亂手寫體時表現得并不太好。
所以我在聽了兩堂關于神經網絡的課後覺得很有興趣,決定把我的畢業論文主題定爲神經網絡的并行訓練。
我認爲隻需要更多的計算資源就能有所突破。于是我想,何不利用系裏那台 32 處理器的機器來訓練更大的神經網絡?這就是我接下來的幾個月所做的事情。
Hannah Fry:結果成功了嗎?
Jeff Dean:是的,成功了。當時我以爲 32 個處理器已經足夠讓神經網絡運行順暢,結果證明我還是錯了。其實我們需要大約一百萬倍的計算能力,才能真正讓它們表現出色。
幸運的是,摩爾定律的進步、處理器速度的提升,以及各種計算設備的發展,最終使我們擁有了強大的一百萬倍計算能力的系統。這讓我重新對神經網絡産生興趣。
當時 Andrew Ng(吳恩達)每周都有一天在 Google 做顧問。
有一次我在 Google 的廚房碰到他,問他在做什麽。他說:" 還在摸索,不過我的學生在神經網絡方面取得了不錯的進展。" 于是我提議:" 爲什麽不訓練一些非常大的神經網絡呢?"
這就是我們在 Google 開始神經網絡研究的起點,後來我們成立了 Google Brain 團隊,專門研究如何利用 Google 的計算資源訓練大型神經網絡。
我們開發了軟件,把神經網絡分解爲多個部分,由不同計算機處理,還讓它們相互溝通,在 2000 台計算機上一起訓練一個神經網絡。這使我們訓練出比當時其他模型大 50 到 100 倍的網絡。這是 2012 年初,圖像識别取得重大突破之前的事。
當時我們做的還是把計算機連接起來,就像我本科論文一樣。這次不同的是規模更大,而這次真的奏效了,因爲計算機更快了,也用了更多的機器。
Hannah Fry:不過在 2011 年的時候,這感覺像是一場賭注嗎?
Jeff Dean:當然是了。我們當時爲訓練這些神經網絡而搭建的系統,并嘗試各種分解方法,我給它取名爲 DistBelief(直譯爲 " 分配信念 ")。
部分原因是很多人不相信它真的能成功,另一個原因是它是一個分布式系統,可以構建這些網絡——我們想訓練的不僅僅是神經網絡,還有深度信念網絡(Deep Belief Networks)。所以就叫 DistBelief 了。
DeepMind 和 Gemini 背後的故事
Hannah Fry:當你們在美國開發 DistBelief 時,大西洋的另一邊正是 DeepMind 的起步階段。我知道你是後來負責拜訪 DeepMind 的人。你能講講這個故事嗎?
Jeff Dean:是的。Geoffrey Hinton,這位著名的機器學習研究員,2011 年夏天曾在 Google 工作過。那時我們還不知道該給他安排什麽職位,最後把他歸爲實習生,這挺有趣的。後來他和我一起工作,之後我們得知了 DeepMind 的存在。
我想 Geoffrey 對這家公司的起源有所了解,也有其他人告訴我們," 英國有一家公司在做些有意思的事情。" 當時他們大概隻有四五十人。于是我們決定去看看,把它視作潛在的收購對象。
那時我在加州,Geoffrey 在多倫多,是那裏的教授。他背有問題,不能乘坐普通航班,因爲他無法坐下,隻能站着或躺着。而航班起飛時不能站着,所以我們安排了私人飛機上的醫療床。
我們從加州飛往多倫多接他,然後一起飛到英國,降落在某個偏遠機場。接着我們坐上一輛大面包車,直奔 DeepMind 的辦公室,應該在 Russell Square(倫敦羅素廣場)附近。
前一晚的飛行讓我們很累,接下來就是來自 DeepMind 團隊的 13 場連續 20 分鍾的演講,介紹他們的各種項目。我們看了他們在 Atari 遊戲上的一些工作,主要是用強化學習玩舊版 Atari 2600 遊戲,比如《Breakout》和《Pong》,這都非常有趣。
Hannah Fry:你們當時還沒有做強化學習的工作?
Jeff Dean:對,那時我們主要專注于大規模的監督學習和無監督學習。
Hannah Fry:強化學習更多是通過獎勵來激勵的,對吧?
Jeff Dean:是的,我認爲這些技術都很有用,通常将它們結合起來使用效果會更好。
強化學習的核心在于代理在環境中操作,每一步都有多個選擇。例如,在圍棋中,你可以在多個位置放置棋子;在 Atari 遊戲中,你可以移動操控杆或按按鈕。獎勵往往是延遲的,在圍棋中,你直到棋局結束才能知道每一步是否正确。
強化學習的有趣之處在于它能夠處理長時間的動作序列,并根據這些動作的結果來給予獎勵或懲罰。獎勵或懲罰的程度與這些動作的預期結果相關。
如果你取得了勝利,你會覺得這個決定是對的,從而增加對這一策略的信心;如果失敗了,你可能會減少對這一策略的信心。強化學習特别适用于那些結果需要較長時間才能顯現的情況。
強化學習特别适用于那些立即無法判斷好壞的情況。
監督學習指的是你有一組輸入數據和對應的真實輸出。一個經典的例子是圖像分類中,每張圖像都有一個标簽,如 " 汽車 "、" 鴕鳥 " 或 " 石榴 "。
Hannah Fry:當你們決定進行收購時,Demis 是否感到緊張?
Jeff Dean:我不确定他是否緊張。我主要關注的是代碼的質量。我要求查看一些實際代碼,以了解代碼标準和注釋情況。Demis 對此有些猶豫。
我說隻需要一些小片段,就能讓我了解代碼的實際情況。于是,我進入了一間工程師的辦公室,我們坐下來聊了 10 分鍾。
我問,這段代碼做了什麽?那個東西呢?那是什麽作用?能給我看看它的實現嗎?我出來後對代碼質量很滿意。
Hannah Fry:在這些演示中,你的印象如何?
Jeff Dean:我覺得他們的工作非常有趣,尤其是在強化學習方面。
我們當時專注于模型擴展,訓練的模型比 DeepMind 處理的要大得多。他們在用強化學習解決遊戲問題,這爲強化學習提供了一個很好的應用場景。
結合強化學習和我們的大規模擴展工作,看起來會是一個很有前途的方向。
Hannah Fry:這就像從兩個方向解決問題——一個是小規模的強化學習,如玩具模型;另一個是大規模的理解。将這兩者結合起來,效果非常強大。
Jeff Dean:是的,确實如此。這也是我們去年決定合并 DeepMind、Google Brain 和其他 Google 研究部門的主要原因。我們決定将這些單元結合起來,形成 Google DeepMind。
Gemini 的概念實際上早于合并的想法,但真正的目的是讓我們在這些問題上共同努力。
由于我們都緻力于訓練高質量、大規模、多模态的模型,将想法和計算資源分開是不合理的。
因此,我們決定将所有資源和人員整合,組建一個聯合團隊來解決這個問題。
Hannah Fry:爲什麽叫 Gemini?
Jeff Dean:實際上是我命名的。Gemini 代表雙胞胎,這個名字很好地體現了 DeepMind 和 Google Brain 的結合,象征着兩個團隊共同緻力于一個雄心勃勃的多模态項目。
這個名字還有多個含義,比如它有點像是雄心勃勃的太空計劃的前奏,這也是我選擇這個名字的原因之一。
Transformer 與多模态處理
Hannah Fry:我想要談談多模态的内容。在此之前,可以告訴我們一點關于 Transformer 的工作以及它的變革性影響嗎?
Jeff Dean:當然可以。實際上,處理語言和許多其他領域的問題往往涉及序列問題。
例如,Gmail 的自動完成功能根據你輸入的内容來預測下一個可能的詞語,這類似于大型語言模型的訓練過程。這樣的模型被訓練來逐字或逐詞地預測文本的下一部分,就像是高級的自動補全功能。
這種序列預測方法在許多領域都很有用。在語言翻譯中,模型可以根據輸入的英文句子預測相應的法文句子。在醫療領域,它能夠處理病人的症狀和檢測結果,預測可能的診斷結果。
此外,這種方法也适用于其他數據類型,如 DNA 序列。通過隐藏序列中的部分信息,模型被迫預測接下來會發生什麽。這種方法不僅适用于語言翻譯和醫療診斷,還可以擴展到其他領域。
在 Transformer 架構出現之前,遞歸模型才是成功的模型,它們依賴内部狀态來處理序列數據。處理每個詞時,模型會更新一次内部狀态,然後再處理下一個詞。這種方法需要對每個詞進行逐步處理,導緻運行速度較慢,因爲每一步都依賴于前一步,存在序列依賴問題。
爲了提高效率,Google Research 的研究人員提出了 Transformer 架構。與其逐詞更新狀态,不如一次性處理所有詞,并利用所有先前的狀态進行預測。
Transformer 基于注意力機制,能夠關注序列中的重要部分。這使得它可以并行處理大量詞語,大幅提升了效率和性能,相比傳統遞歸模型,提升了 10 到 100 倍。
這就是進步如此大的原因。
Hannah Fry:也許我們還會從語言和序列中獲得一種概念理解或抽象,這是否讓你感到驚訝?
Jeff Dean:是的。當我們聽到一個詞時,我們不僅想到它的表面形式,還會聯想到許多其他相關的事物。比如,"cow(牛)" 會讓我們想到牛奶、咖啡機、擠奶等。在詞的表示中,方向性也很有意義。例如,"walk(走)" 到 "walked" 的變化方向與 "run(跑)" 到 "ran" 的方向相同。這種表示不是我們故意設計的,而是訓練過程中自然出現的結果。
Hannah Fry:真是太神奇了。但這隻是語言方面的讨論。那麽,多模态處理會如何改變呢?有什麽不同?
Jeff Dean:多模态處理的關鍵在于如何将不同類型的輸入數據(如圖像和文字)轉換爲相同的高維表示。當我們看到一頭牛時,這會在我們的大腦中激活類似的反應,不論是通過閱讀 "cow(牛)" 這個詞,還是看到牛的圖片或視頻。我們希望訓練模型,使其能夠将這些不同輸入的聯合意義和表示整合起來。這樣,看到一段牛在田野中走動的視頻,模型會觸發與看到 "cow(牛)" 類似的内部反應。
Hannah Fry:所以,多模态處理并不是将語言部分和圖像部分分開處理再結合?
Jeff Dean:正是這樣。在早期模型中,雖然存在這些表示,但處理起來确實更複雜。
Hannah Fry:這是否使得多模态模型的初始設置更加困難?
Jeff Dean:是的,多模态模型的整合和訓練比單一語言模型或圖像模型複雜得多。然而,這樣的模型可以帶來很多好處,比如跨模态的遷移學習。看到牛的視覺信息可以幫助模型更好地理解語言。這樣,無論是看到 "cow(牛)" 這個詞還是牛的圖像,模型都會有類似的内部觸發反應。
多模态模型的風險與潛力
Hannah Fry:你認爲這些多模态模型會改變我們的教育方式嗎?
Jeff Dean:我認爲 AI 在教育中的潛力巨大,但我們還在探索初期。
研究表明,一對一輔導比傳統課堂效果更好,那麽 AI 能否讓每個人都享受到類似的一對一輔導呢?這個目标離我們已經不遠了。
未來,像 Gemini 這樣的模型可以幫助你理解課本中的内容,無論是文字、圖片,還是視頻。如果有不理解的地方,你可以提問,模型會幫助解釋,還能評估你的回答,引導學習進度。
這種個性化學習體驗能惠及全球,不僅限于英語,還将支持全球數百種語言。
Hannah Fry:你提到的多語言和普及工具的想法很好,但是否存在這樣的風險:使用這些工具的人獲益更多,而無法使用的人會面臨更多困難?這是你擔心的問題嗎?
Jeff Dean:是的,我擔心可能會出現一個兩級系統。我們應該努力讓這些技術普及,讓它們的社會優勢最大化,并且确保教育資源變得負擔得起或免費。
Hannah Fry:現在計算方式似乎已經從确定性轉向概率,公衆是否需要接受模型可能會犯錯的現實?這種問題是否能解決?
Jeff Dean:兩者都有。一方面,我們可以通過技術進步,比如更長的上下文窗口來提升準确性。另一方面,公衆需要明白模型是工具,不能完全依賴它們的每個輸出。我們要教育人們保持适度懷疑,同時技術的進步會減少這種懷疑,但适度審查依然重要。
Hannah Fry:除了上下文窗口,還有其他方法可以減少虛假結果的風險嗎?
Jeff Dean:是的,另一個方法是 " 思維鏈提示 "(chain of thought prompting)。例如,對于數學問題,讓模型逐步展示解題過程比直接問答案更有效,不僅輸出更清晰,正确率也更高。即使在沒有明确答案的問題上,給出更具體的提示也能獲得更好的結果。
Hannah Fry:這些多模态模型會理解我們的個人特點和偏好嗎?
Jeff Dean:是的,我們希望模型能更個性化,比如根據你是素食主義者推薦素食餐廳。雖然現在可能還做不到,但未來會有更多符合個人需求的功能,比如制作适合孩子的插圖故事書。
我們希望模型能處理複雜的任務。例如,你可以用簡單的指令讓機器人完成家務。雖然現在的機器人還做不到這一點,但我們正接近實現這個目标,未來它們能在混亂的環境中完成許多有用的任務。
Hannah Fry:現在這些助手主要用于增強人類能力,特别是在醫療和教育領域。多模态模型是否能幫助我們更好地理解世界?雷峰網雷峰網
Jeff Dean:是的,随着模型能力的提升,它們能處理更複雜的任務,比如椅子租賃或會議策劃。模型可以像人一樣提出問題以明确需求,并進行高層次的任務。此外,它們能在模拟器中測試不同設計方案,例如設計飛機。雖然我們不能準确預測這些能力何時實現,但模型在過去 5 到 10 年裏取得了顯著進展。未來,這些功能可能會更快實現,甚至能幫助設計特定的飛機。