I/O 2024，Google 吹響通用 AI 反擊号角

文 | 電廠，作者 | 張勇毅，編輯 | 高宇雷

有了 24 小時前 OpenAI 用 GPT-4o 帶來的炸場之後，今年的 Google I/O 還未開始，似乎就被架在了一個相當尴尬的地位，即使每個人都知道 Google 将發布足夠多的新 AI 内容，但有了 GPT-4o 的珠玉在前，即使是 Google 也不得不面臨巨大的壓力。

這種奇怪的氣氛貫穿了今年 Google I/O 主題演講始終，除了 CEO 皮查伊演講少了很多自信、多了一些此前少見的不自然感與口誤之外，今年 Google I/O 還貢獻了曆年最奇怪的暖場活動，是以一次 AI 工具的翻車爲開場：一位從舞台上的茶杯中鑽出的 DJ，在台上使用 Google 内部開發的一款 AI DJ 小工具 —— MusicFX DJ，在舞台上現場用随機生成的關鍵詞，來創造出一首曲目。

雖然創作出的曲調很糟糕，甚至現場效果還有點魔幻，在社交媒體上遭到大量猝不及防的開發者一緻吐槽，但好在 Google 還是用兩個小時的時間，給這個世界再一次帶來了足夠多的驚喜 —— 以及對 OpenAI 與微軟的反擊。

開場首先，皮查伊先帶我們回顧了過去一年 Google AI 主打産品 —— Gemini 的主要進展，如果說全年 I/O 全場出現頻率最高的詞是 AI 的話，今年毫無意外将變成 Gemini；首先是 Gemini Advanced 在發布三個月之後就已經獲得了超過一百萬用戶；以及兩個月之前發布、最高支持一百萬 Token 上下文識别（通行計算方法中約等于 50 萬中文字符）。的 Gemini 1.5 Pro，今天起将面向全球用戶正式推送。

不僅如此，Gemini 1.5 Pro 還從原本的一百萬 Token 上下文升級至兩百萬 Token 上下文識别。這意味着在多模态處理中能處理超過三萬行代碼，或是超過一小時的視頻文件。

在介紹了 Gemini 本身之後，就到了 Gemini 真正的長處 —— 應用内整合體驗中，皮查伊先是演示了整合在相冊中的功能，在停車并給車拍了照片之後，當你找不到停車的位置，可以直接問 Gemini " 我的車在哪 "，它就能幫你自動識别相關照片中的信息，提示你車停在了哪裏。

這個功能被稱爲。Ask Photos，将于今年正式發布。

在 Google 辦公套件中，如今也迎來了 Gemini 更深度的整合，不僅能在 Gmail 中生成線上會議紀要、在所有郵件中提取關鍵信息。還能與 Google 表格聯動，自動整理郵件中包括的表格文件，甚至是生成一個數據分析表格。

爲了提升用戶日常處理工作内容的辦公效率，Google 還将 Gemini 的功能包裝成了一個 AI 員工—— AI Teammate，來充當你工作中的一個人工智能助理，幫你整理各種信息并借助大模型來實現更智能的反饋，例如從郵件中提煉信息，甚至是會議錄音中的關鍵信息。

除了辦公套件之外去年作爲探索項目登場的 Notebook LM 今年也公布了新進展：作爲 Google 生成式 AI 直面教育應用場景的項目，這被外界看作是對 OpenAI" 撞車 " 最直接的回應。

在現場的演示中，NotebookLM 不僅能很好地充當一個老師的身份、講述一組簡單的物理課程，還能模拟兩個演講者，生成一個類似對話的講解内容。在用戶提問 " 你能舉個例子嗎 " 這樣的問題時，實時給出一個準确的回答。讓你能夠更準确地掌握物理原理中的細節。

Google 同時還針對去年發布、在 Android 手機上實現畫圈搜索功能的 "Circle to Search" 功能加入了更多教育相關的使用場景：現在這個功能已經支持識别畫面中的數學題以及符号公示等複雜的内容。

在 AI 行業早期，除了 OpenAI 之外，還存在着另外一個聚集了業界大量人才的組織 —— 那就是如今已經被 Google 收購并整合的 DeepMind。

但在過去十餘年時間中，DeepMind 長期以一種低調的印象示人：以研究成果定勝負，而不是像 OpenAI 管理層一樣，在各種演講中抛頭露面發表言論。

但在今年 I/O 上，DeepMind 創始人哈薩比斯第一次出現在 Google I/O 舞台上，來給金主 " 救火 "，Alphabet 内部對 AI 的緊迫性可見一斑。

這位 AI 行業舉足輕重的大牛上台，卻看似輕飄飄地發布了一個針對端側的模型 —— Gemini 1.5 Flash，甚至現場觀衆都有些沒反應過來他是在賣什麽關子，直到哈薩比斯說出他們的最終目的 —— 打造通用強人工智能。

實現這個目标的具體步驟，就是哈薩比斯介紹的新項目 —— Project Astra，探索通用人工智能如何在日常生活中爲我們提供真正日常生活所必須的幫助。

作爲對這個問題的直接回應，哈薩比斯現場展示了 Astra 的一個使用視頻：操作者以智能手機爲媒介，讓大模型實時收集環境中的各種信息，并在圍繞着辦公室轉了一圈後突然提問：你記得眼鏡在哪裏嗎 "。

在正常的環境中，即使是兩個正常人類之間對話，也可能會忽視掉這些細節，但演示中的 AI 卻精準地從衆多環境信息中捕捉到了眼鏡的位置，并給出了正确的方位提示。這種強悍的通用語言與環境理解能力将現場氣氛推向了最高潮，也再一次向外界展示了 Deepmind 作爲傳統 AI 強手實力的冰山一角。

哈薩比斯還特别提到，這些演示項目并非刻意實現、" 僅供參考 " 的演示效果，兩個短片中的所有實現效果都是一次完成。這意味着當前 Project Astra 已經能非常流暢地實現這些效果。

除了對通用人工智能的探索之外，哈薩比斯還介紹了 Deepmind 在多模态領域的新進展：将在圖像、音頻以及視頻三個主要内容領域全方位出擊。分别是能夠生成超過 60 秒、畫質爲 1080p 的視頻片段的視覺模型 Voe、文生圖模型 Imagen 3、以及面向專業音樂創作者的音樂合成工具 Music AI Sandbox。

TPU 硬件的更新也是 Google I/O 主題眼鏡中的保留項目，每次伴随着 AI 新技術發布，TPU 作爲驅動軟件的硬件引擎都會随着更新叠代。

這次主題演講中 Google 發布了代号爲 Trilium 的第六代 TPU 硬件，計算能力相比前代提升 4.7 倍，預計将在 2024 年年底面向用戶推出，本次發布會中出現的 Veo、Gemini 1.5 Pro 等幾乎所有産品，都是在這些新硬件上計算而來。

Android 也不能免俗，将 AI 功能更新作爲今年介紹的重點。尤其是 Gemini 在 Android 系統中更深度的整合。

實際上今年的 Android 15 當然也不隻有 AI 功能，但 Google 爲了給 AI 功能讓路，在首日的主題演講中介紹的都是 Android 15 中與 AI 相關的動态，剩餘的内容被擠到了次日的分會場演講中。

Gemini 作爲一個獨立 App 在 Android 端已經存在一段時間了，這次 Google 終于進一步發揮了 " 主場 " 優勢，将 Gemini 進一步整合進操作系統中：現在在 Gemini 對話中生成的圖像可以被直接拖拽到其他應用中使用。

這次 Gemini 在 Android 上的最新進展是 Gemini Live，主打使用語音的雙向流暢對話體驗，在對話過程中你甚至可以像現實與真人對話一樣，通過打斷對話、提出新問題的方式來更高效的溝通。Google 同時預告基于 Project Astra 實現的攝像視頻識别功能也将在今年年内發布。

這個功能實現的原理，是将視頻内容逐幀拆解并交給 Gemini 識别，在效果上實現接近 " 理解世界 " 的效果。例如當你不會用某款相機時，用手機鏡頭對準相機并提問，Gemini 就能夠從畫面中識别出相機的型号，并根據你的問題，搜索相關内容給出使用教程。

另一個重要功能更新是 Android 15 中的 Gemini 支持了 YouTube 視頻内容識别，Gemini 在視頻播放界面可以直接提取視頻相關的信息，并回答用戶各種關于視頻的問題，甚至是生成視頻内容摘要。YouTube 上數十億個視頻都可以使用這個功能。

除了這些聯網功能更新，去年發布的、完全基于端側算力實現的 Gemini Nano 則是更多本地功能的基礎；基于本地模型實現的功能不僅能更快速地實現諸如畫面内容識别等無障礙功能，還能在更多隐私需求更高的應用場景中，比如這次新發布的基于本地語音模型、通過對話内容，判斷出對方是否可能是詐騙電話。

通過 Gemini Nano 模型本地實時處理，在檢測到諸如 " 銀行 "" 轉賬 " 等關鍵字眼以及上下文之後，手機的通話界面會彈出一個 " 這可能是詐騙電話 " 的提示，并給出諸如 " 銀行不會要求你通過電話轉賬 " 這種可能的理由。

毫無疑問，在智能手機端，端側模型的潛力還有巨大的挖掘空間，這次模型本身能力也得到了加強，Gemini Nano 在原本僅支持文本識别的基礎上，将于今年内增加視覺、聽覺與口語的識别支持。

去年在 OpenAI 改變世界之後，Google 也隻是被改變的一部分：2023 I/O 中即使充滿了各種 AI，也很容易給人一種 " 湊數 " 的觀感：以至于 " 演講中出現了多少次 AI" 的惡搞視頻，反而在主題演講結束後，成爲社交媒體上被瘋傳最多的内容。

到了 2024，即使 OpenAI 還想在複刻一把 " 偷襲 "，但 Google 這次的準備顯然更加充足自信，甚至 Google 官方也還玩了去年的梗，主動問了觀衆 " 我們今年說了多少次 AI"？

對于這個問題，皮查伊的回答是将演講的文稿直接扔給 Gemini，讓它提取文本中内容來回答，答案是 120 次，然後在說出這句話的同時，數字變成了 121。

這個小小的幽默其實也揭示了 Google 對 AI 的開放态度：任何問題都嘗試用 AI 來回答。皮查伊還重新強調了 Google 在 AI 領域的目标 " 整理世界所有的信息爲你所用 "，Google 在軟件側的所有軟件更新幾乎都是在踐行這一目标。

從這一點來講，有着廣泛應用生态與用戶的 Google 生态，仍然有着巨大的先手優勢。加上本次 I/O 中展示的既有當下就能立即使用到的 Gemini 更新，也有類似 Project Astra 這樣極具野心的前沿探索項目，一系列組合拳之下，Google 在 AI 領域的第一梯隊位置再一次得到了穩固。

至少從這次 I/O 我們看到新内容的分量來講，Google 仍然是 OpenAI 最強力的競争對手，即使它曾經短暫地落于下風。