專訪谷歌CEO皮查伊：Gemini隻是起步，微調還能讓它更強

編譯 / 金鹿

編輯 / 騰訊科技郝博陽

美國當地時間周三，谷歌發布了其最新一代的人工智能模型 Gemini。這個新模型體現了谷歌首席執行官桑達爾 · 皮查伊（Sundar Pichai）多年努力的成果。

皮查伊此前曾負責谷歌的 Chrome 和安卓業務，向來以癡迷産品而聞名。早在 2016 年，他就開始爲谷歌的人工智能發展定下了基調。在他作爲首席執行官的首份創始人信中，他預測：" 我們将從移動優先的世界轉向人工智能優先的世界。" 從那時起，皮查伊開始逐步推動谷歌所有産品的人工智能化，從安卓設備到雲計算，無一不包。

然而，盡管谷歌在人工智能領域有着深厚的基礎，但其風頭近來逐漸被 OpenAI 蓋過。OpenAI 去年推出的 DALL-E 和 GPT-3.5，以及今年的 GPT-4，無疑在人工智能行業掀起了巨大的波瀾，引發了初創公司和科技巨頭之間的激烈競争。

Gemini 的誕生，無疑使谷歌在這場競争中重新獲得了有力地位。該系統由谷歌 DeepMind 推出，這是由德米斯 · 哈薩比斯（Demis Hassabis）領導的新整合部門。現在，用戶可以在谷歌的聊天機器人 Bard 中體驗到 Gemini 的功能，谷歌預計将在 2024 年将其全面整合到自家産品線中。

在 Gemini 發布前夕，《麻省理工學院技術評論》雜志在谷歌位于加州山景城的辦公室采訪到了皮查伊，與他讨論了 Gemini 對谷歌、其産品、人工智能以及整個社會的深遠影響。

以下爲專訪全文：

問：Gemini 爲何如此引人注目？能否分享一下你對人工智能的整體看法？它的潛力、應用以及其在谷歌所有産品中的發展前景？

皮查伊：Gemini 之所以令人矚目，其中一個重要原因是它從根本上就是一個多模态模型。就像人一樣，它不僅從文本中學習，還能通過視頻、音頻和代碼進行學習。因此，這個模型天生就具備了更強大的能力，我相信這将推動我們開發出更多新功能，并推動該領域的進步。這确實令人振奮。

另一個令人感到興奮的原因在于，在 32 個主要基準測試中，Gemini 在 30 個中都是最佳表現，尤其是在多模态基準測試中。在 MMLU（大規模多任務語言理解）測試中，它更是取得了巨大的進步。我個人認爲，作爲領先基準之一的 MMLU，Gemini 跨越了 90% 的門檻，這是一個意義重大的裏程碑。回想兩年前，當時的水平隻有 30%，然後是 40%。這充分展示了該領域所取得的巨大進步。在 57 項測試中，Gemini 的表現有 89% 與人類專家相當。這是第一個達到這一标準的模型。

我本人也感到很激動，因爲 Gemini 終于要應用于我們的産品中了。它将向開發者開放。人工智能是一個深刻的平台變革，比網絡或移動變革還要深遠。因此，這對我們來說代表着邁出了重要的一步。

問：讓我們來談談這些基準測試。雖然 Gemini 似乎在幾乎所有測試中都領先于 GPT-4，但領先優勢并不明顯。而 GPT-4 本身就是一個巨大的飛躍。我們是否開始觸及這些大語言模型技術的極限，或者你認爲仍然存在巨大的提升空間？

皮查伊：首先，展望未來，我們确實看到了巨大的提升空間。有些基準已經很高了。但我們必須意識到，當你試圖從 85% 開始突破時，你已經處于曲線的末端。雖然看起來進展不大，但确實意味着我們仍在取得進展。我們還需要開發新的基準測試，這也是我們研究 MMLU 多模态基準的部分原因。對于其中一些新的基準，目前的技術水平仍然很低，未來還有很大的提升空間。比例定律依然有效：随着模型的擴大，我們會看到更多的進展。從整體來看，我真的覺得我們才剛剛開始探索人工智能的潛力。

問：在你看來，Gemini 的關鍵創新是什麽？這些創新将如何被實際應用？

皮查伊：人們可能難以想象即将到來的種種突破。我們正在提供應用程序開發接口（API），使人們能夠以前所未有的方式體驗它。我相信多模态基準将取得巨大的進展。随着我們教會這些模型進行更多的推理，将會出現越來越大的突破，而且更深遠的突破還在後頭。

以 Gemini Pro 爲例，它在基準測試中的表現非常出色。但當我們将其集成到 Bard 中時，我可以親身感受到它的優勢。我們一直在對它進行測試，所有類别任務的好評率都有顯著的提升。因此，我們将其稱爲迄今爲止最大的升級之一。當我們進行并行評估時，它的表現确實令人印象深刻。因此，這些更好的模型在基準上不斷改進，取得了顯著的進步。我們将繼續訓練和學習。

然而，我迫不及待地想将 Gemini 應用于我們的産品中。這些模型具有強大的能力。在接下來的幾個月裏，設計出能夠充分利用這些模型優勢的産品體驗将是令人興奮的挑戰。

問：雖然 Gemini 在各個方面都略微領先于 GPT-4，但你認爲從 GPT-4 的發布中學到了什麽？在這段時間裏，有哪些方法發生了變化？

皮查伊：至少在我看來，這并不是一個零和遊戲。想想看，向人工智能的轉變是多麽深刻，我們還處于早期階段，前方充滿了無限的機會。

關于你的具體問題，這是一個我們都在快速進步的領域。我們發表了很多文章，研究像 GPT-4 這樣的模型在現實世界中是如何工作的。我們從中學到了很多經驗教訓。安全是一個重要的領域。因此，在 Gemini 項目中，我們已經學習并改進了一些安全技術，這些技術是基于模型在現實世界中的運作方式而改進的。它表明了微調等各種技術的重要性。我們在 Med-PaLM 2 中展示的一個例子是，采用一個像 PaLM 這樣的模型，并對其進行微調以适應特定的領域，結果表明它可以勝過最先進的模型。這就是我們學習到微調的方式之一。

當我們研發 Gemini 時，很多這樣的經驗都被應用到了其中。我們花費更多時間研發 Gemini Ultra（更先進的 Gemini 将于明年推出）的部分原因是爲了确保我們對其進行了嚴格的安全測試。同時，我們也在對其進行微調，以充分發揮其潛能。

問：當這些模型在現實世界中應用時，有時候會出現産生幻覺或洩露訓練數據中私人信息的情況。考慮到模型所使用的數據，如果這是不可避免的，那麽這在技術中有多少是固有的？如果無法避免，你們會采取哪些措施來限制這種情況的發生？

皮查伊：你提出的問題非常關鍵。事實上，我們最近發表了一篇論文，揭示了這些模型如何通過一系列提示洩露訓練數據。雖然目前還沒有解決幻覺問題的方案，但我認爲我們都在朝着這個方向努力，隻是還需要做更多的工作。我們需要克服一些基本的限制。舉個例子，如果我們使用 Gemini Ultra，我們正在積極與外部第三方合作，他們是這些領域的專家。

在多模态等方面，我們希望能夠更大膽、更負責任。在推出多模态模型時，我們會更加謹慎，因爲錯誤用例的可能性更高。但是，你指出的問題仍然是開發中技術所面臨的挑戰，它們并不适用于所有情況。在搜索中，我們會更加仔細地考慮如何使用它、何時使用、在哪裏使用以及何時觸發。這些模型具有驚人的能力，但也存在明顯的缺陷。這是我們所有人都需要解決的艱巨挑戰。

然而，未來的人工智能系統可能與我們今天所擁有的系統截然不同，就像有人曾認爲計算機無法裝進口袋一樣。同樣地，對于這些系統，如果有人說無法設計出更好的系統，我并不同意這種觀點。目前正在進行許多研究探索，思考如何解決這些問題。

問：你認爲人工智能将帶來深刻的變革。然而，在最近的一些轉變中，比如向移動設備的轉變，生産率的提高并不一定是必然的，甚至在很長一段時間内都保持不變。有觀點認爲，這甚至可能加劇了收入不平等。谷歌正在開展哪些工作來确保這種轉變對社會更有益？

皮查伊：這是一個非常重要的問題。我從幾個角度思考這個問題。在谷歌，我們一直關注的一件事是：如何讓技術盡可能廣泛地使用？即使在移動領域，我們利用安卓操作系統做了很多工作，但仍有數億人無法使用手機。我們正在努力推出一款價格合理的智能手機，價格可能低于 50 美元。因此，讓人工智能對每個人都有所幫助是我考慮的重點之一。我們嘗試讓盡可能多的人接觸到這些技術。

同時，我們正在深入思考如何将人工智能應用于對人們有益的用例中。以洪水預報爲例，我們早期投入該領域的原因是我們意識到可以探測到模式并做得很好。我們也将人工智能用于翻譯 1000 種語言。我們現在确實在嘗試用不同的語言提供内容，否則你将無法訪問這些内容。

這并不能解決你提到的所有問題。但我們要慎重考慮在何時何地專注于解決什麽樣的問題。以 AlphaFold 等領域爲例，我們爲世界各地的病毒提供了一個開放的數據庫。但是，誰會最先使用它？人工智能不會神奇地讓某些更困難的問題變得更好，比如不平等問題或者它可能會加劇這種情況？

重要的是确保每個人都能使用技術。在早期開發階段就讓人們接觸到技術并參與到對話中，這樣社會就可以幫助測試技術并适應它。在這方面我們肯定比其他公司更早地參與其中。最近我們參加了英國人工智能安全論壇，并與美國國會和政府合作，我們正在嘗試建立更多的公私合作夥伴關系，以更早地吸引非營利機構和學術機構參與進來。至于對就業等領域的影響，還需要深入研究，但我确實認爲會帶來驚喜。

我可以舉很多例子來說明手機帶來的好處，我認爲人工智能技術也是如此。我們已經在糖尿病視網膜病變等領域展示了這一點，畢竟世界上許多地方沒有足夠的醫生來檢測這種疾病。就像我覺得讓世界各地的人們都能使用谷歌搜索一樣，我認爲這是擴大人工智能使用範圍的一種方式。

問：有些技術，如編程，明顯提高了效率，但其普及也對就業市場構成了威脅。你如何看待這個問題？

皮查伊：技術的确在推動效率提升，但我們也不能忽視它對就業的潛在影響。然而，問題的答案并非非黑即白。以面部識别技術爲例，盡管我們公司沒有提供相關的 API，但其他公司已經開發出了這樣的技術。技術發展的腳步并不會因爲某一家公司的決策而停止。這是一個比單一公司決策更爲複雜的社會問題。如果我們不采用這些新技術，可能會影響到我們的經濟競争力，甚至可能導緻更多的工作崗位流失。

我認爲，我們應該以負責任的态度來部署這些技術，同時思考如何減輕其可能帶來的負面影響。新的工作類型将會随着技術的發展而出現，人們将有機會從重複性的工作中解脫出來，有更多的時間和空間去進行深入思考和創造性表達。當然，這也會使得某些工作崗位變得不再必要。作爲一個社會，我們需要思考如何對這些受到影響的人們進行再培訓，幫助他們找到新的工作機會。

問：對于人工智能的發展，人們的看法出現了分歧。有的人支持安全第一，有的人則認爲商業用例應該優先。有人支持加速開發，也有人擔心出現世界末日。你如何看待這種分歧？

皮查伊：我是一個技術樂觀主義者，我相信人類可以利用技術來造福社會。人工智能确實具有兩面性，但我們不能因爲恐懼而停止前進的腳步。我們需要大膽地向前邁進，同時也需要社會制定出相應的框架來應對可能出現的問題，如深度造假、工作崗位被取代等。這将是我們未來十年需要努力解決的最大問題之一。

問：圍繞人工智能的法律法規也是一個懸而未決的問題。例如，有關于合理使用、版權保護等問題。對于知識産權來說，這似乎将是一件大事。你如何确保那些使用你産品的人有種安全感，不必擔心爲自己所做的事情而被起訴？

皮查伊：并不是所有的問題都有簡單的答案。在人工智能之前，我們在開發搜索、YouTube 等産品時，就一直在努力實現正确的價值交換。人工智能也是如此。我們将專注于确保我們的訓練數據符合法律規定，同時讓人們有機會選擇退出。還有一個層面是關于什麽是合理使用。爲原創内容的創造者創造價值是很重要的。

随着時間的推移，會有新的法律框架出現。我們将努力遵守法律，并與内容提供商保持良好的關系。這是一個充滿争議的領域，但我們正在努力尋找解決方案。我們必須創建一個雙赢的生态系統，讓所有這些元素都能長期共存并發揮作用。

問：如今，許多人對網絡未來的擔憂集中在搜索領域。當有一種技術能夠根據網絡信息爲你提供答案時，有人擔心人們可能不再需要訪問這些網站了。這對谷歌會有影響嗎？你是否在考慮自己的業務？

皮查伊：在搜索領域，谷歌的獨特價值在于幫助用戶發現和學習新事物，并找到答案，同時始終注重分享網絡上豐富多樣的觀點。這也是我們産品開發的重要原則之一。我們相信人們在搜索時并不僅僅想要一個簡單的答案，而是希望通過探索和學習，深入了解更多信息。因此，我們一直緻力于提供高質量的搜索結果，并确保我們所做的事情是正确的。在這個過程中，保持平衡至關重要。

當然，我們也需要考慮商業價值。從台式機到移動設備，我們一直在面對類似的問題。但是，通過深入了解用戶需求和對高質量廣告的反應，我們對未來充滿信心。以 YouTube 爲例，我們已經推出了訂閱模式，并且取得了很好的效果。

問：随着這些産品逐漸進入市場并開始與用戶互動，你認爲明年人們的體驗會發生怎樣的變化？

皮查伊：我認爲，從現在開始的一年裏，使用 Google Docs 的人将會期待一些不同的體驗。如果我們給他們提供了全新的功能，然後再讓他們回到 2022 年版本的 Google Docs，他們會發現舊版本已經過時了。這就像我的孩子們一樣，如果他們使用的 Google Docs 沒有拼寫檢查功能，他們就會認爲出了問題。與此同時，與其他公司相比，我們在搜索中融入了更多的人工智能技術，使得自動功能成爲許多産品中理所當然的存在。這也是我們多年來學到的一個重要經驗：讓用戶相信這些功能的存在是理所當然的。

随着我們開發多模态能力，人們将能夠以一種以前無法做到的方式完成更複雜的任務。這将帶來真正的用例和更強大的功能。總的來說，我們将繼續努力改進我們的産品和服務，以滿足用戶的需求和期望。