萬衆矚目、被業界認爲最有可能打敗 GPT-4 的谷歌最強 AI 大模型終于亮相了!
美西時間 12 月 6 日,谷歌首席執行官 Sundar Pichai 和 DeepMind 負責人 Demis Hassabis 共同在官網宣布 Gemini 1.0 正式上線。
Gemini(雙子座)由 Google Research 和 DeepMind 等多個 Alphabet 團隊共同打造。作爲一款新型的強大多模态人工智能模型,它可以歸納、理解、操作以及組合不同類型的信息。不僅能夠處理文本,圖像、視頻和音頻,還可以完成複雜的數學、物理等科學領域任務,并能理解和生成各種編程語言的高質量代碼。
Pichai 将 Gemini 形容爲 " 我們迄今爲止規模最大、能力最強的 AI 模型 ",并表示它在許多領先的基準測試中都展現出最先進的性能。" 第一代 Gemini 1.0 針對不同尺寸進行了優化,分别是:Ultra、Pro 和 Nano。這些是進入 Gemini 時代的第一個模型,也是我們今年早些時候成立 Google DeepMind 時的願景的首次實現。"
在今年 5 月的 Google I/O 大會上,Pichai 就劇透谷歌正在開發 Gemini 的消息。它被描述爲 " 下一代多模态智能網絡 ",爲 API 集成而設計,據傳擁有像 GPT-4 一樣的萬億參數,算力卻是 GPT-4 的 5 倍,能夠執行更複雜多樣的任務。
爲此,谷歌還将自己的兩個最強人工智能實驗室:谷歌大腦(Google Brain)和 DeepMind 合并,由原 DeepMind 首席執行官 Demis Hassabis 帶隊,投入數億美元潛心研發 Gemini。
甚至連已經辭職四年、雲淡風輕地做公益、搞飛艇的谷歌聯合創始人謝爾蓋 · 布林也重新回歸,親自坐鎮矽谷山景城辦公室參與 Gemini 決策,加入了這場 LLM 大混戰。
可就在上周, The Information 援引知情人士消息稱,Pichai 近期默默取消了本該在加利福尼亞、紐約和華盛頓舉行的一系列 Gemini 公開亮相活動,原因是發現它 " 處理某些非英語查詢時不可靠 ",給産品面世過程蒙上一層灰色。
也許是爲了鞏固市場信心,今天一早,Gemini 1.0 忽然隆重登場,強勢出現在大衆的視野中,迅速占據各大科技媒體頭版。
那麽這個谷歌舉全軍之力押注的最強人工智能大模型,到底怎麽樣?
三個版本,靈活部署
DeepMind 負責人 Hassabis 稱 Gemini 是他們最靈活的模型,能夠在從數據中心到移動設備的各種設備上高效運行。
爲了實現這種可擴展性,Gemini 1.0 設計了三個不同功能和尺寸版本:
Gemini Nano — 端側設備上最高效的模型。專爲智能手機設計,可以在沒有連接外部服務器的情況下執行高效的 AI 處理任務。現已集成入 Pixel 8 Pro,可以支持錄音應用中的 " 總結文本 " 功能,Gboard " 智能回複 " 功能。從 WhatsApp 開始,明年還将擴展到更多應用。
Gemini Pro — 運行在谷歌數據中心,适用于各種任務的最佳模型。從今天起爲最新版本的 AI 聊天機器人 Bard 提供支持。它能夠快速響應并理解複雜查詢,是 Bard 推出以來的最大升級。目前爲 170 多個國家和地區提供英語服務,計劃未來幾個月内支持新的語言和地區,并應用于搜索、廣告、Chrome 和 Duet AI 等更多谷歌産品。
Gemini Ultra —規模最大且功能最強大的模型,專用于高度複雜的任務,會在完成當前測試階段後的明年初向開發者和企業客戶提供。屆時還會推出基于 Gemini Ultra 的 Bard Advanced 更新版本。
在模型架構方面,Gemini 依然使用 Transformer 架構,采用了高效的注意力機制,支持 32k 的上下文長度。
跑赢多項 GPT-4 先進性能
谷歌自信表示,在對 Gemini 模型進行嚴格測試和性能評估後,從自然圖像、音頻和視頻理解到數學推理,在被大型語言模型研究和開發中廣泛使用的 32 項學術基準中,Gemini Ultra 的性能有 30 項都超越了目前 ChatGPT 代表的最先進水平。發布 Gemini 前,谷歌對它進行了一系列以标準行業指标評估的測試。
大規模多任務語言理解(MMLU)測試中,Gemini Ultra 得分率爲 90.0%,高于 GPT-4 的 86.4%,成爲首個超越人類專家表現的模型。MMLU 測試涵蓋了包括數學、物理、曆史、法律、醫學和倫理在内的 57 個科目,旨在評估模型在全球知識領域的理解和問題解決能力。
在 Reasoning(推理)、Math(數學)、Code(編碼)三大塊能力測試中,除 HellaSwag(日常任務常識推理)以 87.8% 落後于 GPT-4 的 95.3% 外,其它包括 " 多步推理挑戰性任務 "、"" 代數 / 幾何 / 預微積分等挑戰性數學問題 "、"Python 代碼生成 " 等多項測試都取得了比 GPT-4 更高的得分率。
多模态能力上,Gemini Ultra 在新的 MMMU 基準測試中獲得 59.4% 的 SOTA 分數,超過了 OpenAI 多模态版本 GPT-4V 的 56.8%。這項基準測試跨越了多個不同的領域,需要精密推理多種任務。
在圖像基準測試中,即使沒有采用對象字符識别(OCR)系統輔助,僅通過分析像素信息,Gemini Ultra 的表現還是超過了以往所有模型。音頻測試方面,Gemini 的自動語音識别和自動語音翻譯分數均高于接入 GPT-4 的 Whisper 系統。
Hassabis 表示,這凸顯出了 Gemini 原生多模态的優越性。到目前爲止,創建多模态模型的通常做法是先獨立訓練不同模态的單獨組件,再把它們拼接起來,試圖模拟出一些功能。
這樣的模型雖然有時可以有效執行描述圖片等特定任務,但在概念性更強、更複雜的推理方面,它們往往表現不佳。
而 Gemini 起初就是以原生多模态的方式設計,從一開始就在不同模态上使用由 Google 設計的 TPUs v4 和 v5e 芯片接受預訓練。接着用更多額外的多模态數據對它進行不斷微調,以提升效能。
這種方法使得 Gemini 在最初階段就能更自然地理解和推理各種類型的輸入内容,在幾乎所有領域的能力都達到了前所未有的先進水平。
下一代模型能力大升級
首先,Gemini 具有複雜的多模态推理能力,可以幫助理解複雜的書面和視覺信息,在海量的數據中發掘難以辨别的知識内容。
例如,通過自然語言 prompt 指示它過濾不相關論文,或通過閱讀提取關鍵數據。隻需一個午飯休息時間,Gemini 就可以幫你從 20 萬篇論文中提取 250 篇文獻要點,進一步将數據轉化爲任何需要的圖表形式。這将大大有助于在科學、金融等多個領域以數字化速度實現創新突破。
經過訓練的 Gemini 顯然還可以同時識别并理解文本、圖像、音頻數據,更好地理解具有細微差别的信息,回答與複雜主題相關的問題。這就讓它尤其擅長解釋數學和物理等科目推理。在示例中,工作人員展示了 Gemini 可以檢查手寫物理錯題,并解釋正确做法。
爲了更直觀顯示 Gemini 的多模态能力,劈柴哥在 X 發布了一段視頻,表示 " 理解 Gemini 潛在驚人能力的最佳方式就是看看它們的實際應用 "。
視頻中,Gemini 根據指示教工作人員 " 鴨子 " 的普通話發音,還解釋了漢語聲調。
工作人員還給 Gemini 做了一個僅用中文提示互動的演示。通過詢問一張圖片中的室内光線,用中要求 Gemini 給出公寓朝向。Gemini 用中文回答猜測房間朝南。又圈出照片中一株植物,詢問它需要什麽樣的照明,gemini 接着解釋了植物種類和光照需求。整個過程母語般流暢,可見 Gemini 在多語言環境下表現出衆,完全也不亞于 GPT-4。
此外, Gemini 還可以理解、解釋和生成世界上最流行的編程語言(如 Python、Java、C++ 和 Go)的高質量代碼。實現跨語言工作并對處理複雜信息,這些能力使其成爲世界領先的編碼基礎模型之一,協助程序員使用功能強大的 AI 模型作爲協作工具設計應用程序。
對于開發人員來說,從 12 月 13 日開始,就可以通過 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 獲取 Gemini Pro。Android 開發者還可以通過 AICore 使用端側任務最高效的模型 Gemini Nano。
谷歌能否迎頭趕上?
回想谷歌一路的大模型發展之路,與 OpenAI" 王炸 " 不斷、極速更新,微軟将 GPT 各項 AI 功能整合進核心産品鋪天蓋地推向客戶相比,總顯得慢人一步。今年 2 月發布聊天機器人 Bard 時更是出師不利,以一個事實錯誤讓市值一夜蒸發 1000 億美元;對标微軟 Copilot 的 Duet AI 工作套件,市場反響不愠不火,雲服務的财報表現也敗給了微軟。
特别是經曆過 Brain 與 DeepMind 團隊重組内耗、高級人才紛紛向 OpenAI 流失後,谷歌的 AI 之戰打的更是精疲力竭。
不過,這畢竟是貢獻出 Transformer 開山巨作《Attention is all you need》論文和裏程碑式人工智能程序 AlphaGo、啓發後續包括 ChatGPT 在内許多大模型發展的 AI 先驅之師。無論從技術基因、訓練數據、資金和基建來說,都本該具備數一數二的實力。
這次 Gemini 的發布被谷歌視爲十年來最關鍵的技術創新。它能否讓谷歌重整旗鼓,擊敗 OpenAI,重登大模型賽場王座?
明年 Genmini Ultra 問世後,AI 競賽格局是否會被重塑?
以及,新的 Google Bard 大家都試用了沒,感覺如何?
歡迎留言分享,或進群和我們一起探讨!