繼量子芯片之後,谷歌又來搶 "OpenAI 雙 12 直播 " 的流量了!
就在剛剛,谷歌新一代大模型Gemini 2.0突然登場,再次由谷歌 CEO 皮猜親自官宣。
新一代模型專爲 AI Agent 而打造,谷歌表示目前已經将 2.0 版本提供給了一些開發者内測,正在迅速将其集成在 Gemini 和搜索等産品線中。
好消息是,Gemini 2.0 Flash 實驗版模型今天就在網頁端開放,大家都能玩,移動端即将推出。
除此之外,谷歌還推出了一項名爲深度研究(Deep Research)的新功能,基于高級推理和長上下文能力,它能直接幫你幹研究助理的活兒——給個主題,自己出報告的那種。
目前這個新功能在 Gemini Advanced 版本中可用。
谷歌這一波出手,再結合 Sora 的不盡如人意,新一天的直播還沒開始,已經有人開始唱衰 OpenAI 了:
OpenAI 的護城河是什麽?
在谷歌 CEO 皮猜、Google DeepMind CEO 哈薩比斯,以及 Google DeepMind CTO 科雷(Koray Kavukcuoglu)三人共同撰寫的博客文章中,官方給Gemini 2.0的定位是:
面向智能體時代的 AI 模型。
在多模态方面的新進展,以及原生工具的使用,使我們能夠構建新的 AI 智能體,以更接近實現通用助手的願景。
具體如何體現?在 Gemini 2.0 Flash 實驗版第一時間上線的同時,谷歌還在 Gemini Advanced 中推出了一項名爲深度研究(Deep Research)的智能體新功能。
你可以把它當成以研究助理,圍繞一個複雜主題生成研究報告。有點像是個科研版 AI 搜索。
另外一個 Gemini 2.0 的重點關鍵詞是:多模态。
2.0 Flash 實驗版除了支持圖像、視頻、音頻多模态輸入,還支持多模态輸出。
不單單是簡單的圖文混排,可控的多語種文本到語音(TTS)輸出也行,還能直接本地調用工具,比如谷歌搜索、代碼工具、第三方用戶定義的功能。
有 ChatGPT 插件那味兒了。
不過,作爲實驗模型,其文本到語音和原生圖像生成功能目前僅提供給早期訪問合作夥伴。谷歌透露 2.0 Flash 将在 1 月份正式推出,會提供更多不同大小的模型。
而根據谷歌發布的基準測試結果,不論是在多模态的圖片、視頻能力上,還是編碼、數學等能力上,僅是 Flash 實驗版的 Gemini 2.0 表現就已幾乎全面超越 Gemini 1.5 Pro 002。
而且它的速度是 1.5 Pro 的兩倍。
谷歌表示,明年年初,會将 Gemini 2.0 擴展到更多旗下産品中,比如 Project Astra。
就是 I/O 大會上谷歌推出來跟 GPT-4o 的語音功能打擂台的那個。
此次,基于 Gemini 2.0,Project Astra 更新了以下功能:
更好的對話:現在能夠以多種語言和混合語言進行對話,更好地理解口音和不常見的單詞。
使用新工具:Project Astra 會用谷歌搜索、Lens 和地圖了。
更強的記憶力:Project Astra 現在擁有10 分鍾的會話記憶,并且可以記住更多曆史對話,也就說,憑借這些 " 記憶 ",它能更懂你了。
改進延遲:Project Astra 可以按正常人類對話的節奏來理解對話。
谷歌還提到,正在将 Project Astra 移植到眼鏡等更多移動終端中。
另外,谷歌透露,他們正在和 Supercell 等遊戲開發商合作,測試基于 Gemini 2.0 打造的遊戲智能體們的實力。
這些智能體可以根據屏幕上的動作對遊戲進行推理,并與玩家實時對話提供行動建議。
玩《突擊小隊》、《部落沖突》、《農場日記》,場面 belike:
除了網頁端可用,Gemini 2.0 Flash 實驗模型還通過 Google AI Studio 和 Vertex AI 的 Gemini API 向開發者提供。
從 OpenAI 跳槽到谷歌的 Logan Kilpatrick 表示,他們在 Google AI Studio 中創建了一個全新體驗,展示了 Gemini 2.0 視頻理解、原生工具使用、空間理解的入門應用。
那麽,你覺得這夠 Agent 嗎?
參考鏈接:
[ 1 ] https://x.com/GoogleDeepMind/status/1866869343570608557
[ 2 ] https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ai-game-agents
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>