五大重磅更新速覽！谷歌I/O開發者大會究竟公布了什麽？

财聯社 5 月 15 日訊（編輯趙昊）北京時間周三（5 月 15 日）淩晨，谷歌舉辦了年度 I/O 開發者大會，召開了長達兩個小時的主題演講。正如外界預期的那樣，人工智能成爲了這次活動的中心。

在演講中，這家科技巨頭發布了衆多有關人工智能的産品和服務：

一、Gemini 的廣泛升級

谷歌推出了新模型 "Gemini 1.5 Flash"，以作爲 Gemini 1.5 Pro 更具成本效益的替代方案，同時仍具有強大的功能。Gemini 1.5 Flash 從活動當天開始在谷歌的 AI 工作室和 Vertex AI 中提供公開預覽版。

2 月份公布的 Gemini 1.5 Pro 也将迎來升級，在今年晚些時候将會把 100 萬 Tokens 的窗口進一步擴大至 200 萬，這将使其能夠同時處理 2 小時的視頻、22 小時的音頻、超過 60,000 行代碼或超過 140 萬個單詞。

谷歌 CEO 皮查伊強調了 Gemini 在跨語言方面的改進，它将以 35 種語言向全球所有開發人員提供。皮查伊表示，Gemini 1.5 Pro 可以分析 PDF 和視頻以提供摘要，這意味着當用戶假期歸來後，模型可以将電子郵件和附件一起進行總結。

專爲在智能手機上運行而設計的 Gemini Nano 也從純文本輸入擴展到可以圖片輸入。谷歌表示，" 手機将能通過文字、圖片、視頻、音頻，理解用戶的世界。" 并且整個過程都是在本地運行，不會引發隐私洩露。

開源大模型 Gemma 也将有一系列的更新，定于下月推出的 Gemma 2 參數量将能達到 270 億。最後，谷歌的第一個視覺語言模型 PaliGemma 也被添加到 Gemma 模型系列中。

二、Veo、Imagen 3、音頻概述

針對 OpenAI 的 Sora，谷歌也推出了自己的視頻生成模型 "Veo"，可以根據文字、圖片和視頻的提示，生成各種風格的高質量 1080P 視頻。

公司表示，Veo 可以更好地理解自然語言，從而生成更能代表用戶視覺的視頻。它還能理解 " 延時拍攝 " 等電影術語，以生成各種風格的視頻，并讓用戶更好地控制最終輸出。

去年，谷歌推出了一款名爲 "SynthID" 的工具，可以在 AI 生成的圖像中嵌入人眼不可見的水印。在今天的大會上，公司宣布正在将這項工具擴展到文本和視頻之中。上文提到的視頻生成模型 Veo，在該平台生成的所有視頻都會包含 SynthID 水印。

谷歌還推出了新一代的圖像生成模型 "Imagen 3"，根據公司的說法該模型可生成迄今爲止最高質量的圖像，圖像中具有更多細節和更少僞影，有助于創建更真實的視覺體驗。

與 Veo 一樣，Imagen 3 也改進了其自然語言功能，可以更好地理解用戶提示及其背後的意圖。谷歌稱，Imagen 3 是渲染文本的最佳選擇，目前隻有選定的創作者才能使用，很快就會在 Vertex AI 中推出。

通過 Gemini 1.5 Pro，音頻概述（Audio Overview）功能可以基于源文件生成個性化和交互式音頻對話。

三、AI 賦能谷歌搜索

作爲主業，谷歌自然會大力将 AI 融進其主導全球的搜索引擎之中。從本周開始，谷歌搜索引擎将在美國推出 "AI 概覽 "（AI Overviews）的功能，搜索引擎會直接歸納總結搜索結果。

同時谷歌搜索也将具備多步驟推理能力，可以一次性處理帶有多個限制條件的長問題，并支持 " 拍視頻 " 搜索解決方案的新搜索形式。

根據現場演示，搜索引擎具備多步驟推理的能力，例如尋找一個瑜伽教室，同時展示新手優惠報價，和距離特定位置的步行時間。這個 AI 搜索引擎助手，還能介紹食譜、安排行程，以及接受視頻形式的提問。

許多人可能都曾經曆過花費數小時滾動浏覽網頁信息流來查找想要搜索的圖片，對此，谷歌推出了 AI 解決方案。借助 Gemini，用戶可以在 Google Photos 中通過對話提示來查找他們尋找的圖像。

在谷歌提供的案例中，一位用戶希望看到他的女兒作爲遊泳運動員随着時間推移的進步，Google Photos 自動篩選給出。谷歌表示，這項名爲 "Ask Photos" 的功能将于今年夏季晚些時候推出。

四、Astra 項目

谷歌在大會上宣布了一個名爲 "Astra" 的高級視覺和對話響應智能體項目，即開發能在日常生活中提供幫助的通用 AI 智能體。媒體分析認爲，這個項目旨在開發一種類似《鋼鐵俠》中人工智能系統 " 賈維斯 "。

根據谷歌的說法，爲了做到真正實用，智能體需要能夠像人一樣理解周圍複雜多變的環境并做出反應——它需要能接收并記憶所見所聞，從而了解上下文信息并采取行動。

谷歌表示，它還需要具備主動性、" 會學習 " 并能滿足個性化需求，這樣用戶才能自然地與它交談，不會有滞後或延遲。

DeepMind 首席執行官 Demis Hassabis 在台上表示，" 将響應時間縮短爲對話式的内容是一項艱巨的工程挑戰。"

五、AI 芯片等硬件

谷歌推出了第六代 TPU（張量處理單元）"Trillium"，将在 2024 年底向雲客戶提供。公司表示，與上一代 TPU v5e 相比，每個芯片的計算性能提高了 4.7 倍。

除了 TPU，谷歌也會推出 CPU 和 GPU 來支持工作負載。

皮查伊也在大會上提到，谷歌雲将成爲首批提供英偉達 Blackwell GPU 的雲提供商之一，他在演講中強調了谷歌 " 與英偉達的長期合作夥伴關系 "。