正面對決GPT-4！谷歌推出“最全能”AI模型Gemini，從手機到數據中心多環境适配

谷歌邁出了在人工智能（AI）科技應用上追趕 OpenAI 的重要一步，推出手機、雲、數據中心都可應用的超級全能 AI 模型，正面對決 GPT-4。

美東時間 12 月 6 日周三，谷歌正式向公衆發布新一代大語言模型（LLM）Gemini，号稱谷歌迄今爲止 " 最大、也最全能的 AI 模型 "，有高級推理能力，回答難題時 " 考慮得更仔細 "。有别于其他公司 LLM 競品的是，谷歌強調 Gemeni 是最靈活的模型，因爲它用不同大小的版本，可以适用于各種生成式 AI 應用。

其中，最輕盈的版本 Gemni Nano 可以直接在智能手機上離線運行；相對而言更強大的版本 Gemini Pro 可以執行多種任務，将通過谷歌的類 ChatGPT 聊天機器人 Bard，爲衆多谷歌 AI 服務提供支持，加持谷歌的 Gmail、Maps Docs 和 YouTube 等服務；功能最強大的版本 Gemini Ultra 也是谷歌迄今打造的最強大 LLM，主要爲數據中心和企業應用而設計。

谷歌旗下 AI 研究機構 DeepMind 的産品副總裁 Eli Collins 稱，Gemini 的多樣性意味着，它 " 能夠在從移動設備到大型數據中心的所有設備上運行。" 他表示，谷歌早就希望打造的新一代 AI 模型更像是樂于助人的合作者，而不是一種智能的軟件，Gemini 讓谷歌距離這種遠景又近了一步。

現在 Gemini 隻有英語版，谷歌将很快推出其他語言的版本。谷歌 CEO Sundar Pichai 說，Gemini 代表了 AI 的新時代。最終，Gemini 将與谷歌的搜索引擎、廣告産品、Chrome 浏覽器等更多産品結合。

Gemini Nano 手機電腦版周三可用 Gemini Pro 支持 Bard、下周面向雲客戶 Gemini Ultra 明年推行

具體應用時間表方面，從本周三起，安卓系統開發人員可以注冊使用 Gemini Nano 版，打造智能手機和電腦的 Gemini 支持 App。谷歌稱，Gemini 可以立即在其旗艦手機 Pixel 8 Pro 上啓用，實現諸如歸納電話錄音對話要點等新的生成式 AI 功能。

Gemini Pro 版從本周三開始支持 Bard，實現高級的推理、規劃、理解等功能，在 170 個國家地區以英語一種語言操作運行，可能不包括英國或者其他歐洲地區，因爲谷歌稱在和當地的監管機構合作。

從 12 月 13 日下周三開始，谷歌将通過谷歌雲，在旗下 Vertex AI 和 AI Studio 平台向雲客戶提供 Gemini Pro 版。

Gemini Ultra 将首先面向開發者和企業客戶開放，該版本的應用詳情将在下周公布。谷歌計劃，明年初，向公衆大範圍開放 Gemini Ultra 應用。

谷歌還計劃，明年初發布 Gemini Ultra 支持的進階版 Bard Advanced，在面向大衆推出以前，先将推出一個測試項目，以便改進 Bard Advanced。

谷歌的下圖展示了 Gemini 家族三個版本。

32 種行業指标測試中 Gemini 有 30 種遙遙領先 GPT-4

谷歌此次毫不諱言和 GPT-4 一較高低的雄心。發布 Gemini 前，谷歌對它進行了一系列以标準行業指标評估的測試。谷歌稱，在八項測試中，Gemini Pro 有六項的表現優于 OpenAI 的 GPT-3.5。在通用語言理解、推理、數學和編碼方面測試中，八項基準指标裏，Gemini 有七項超過了 OpenAI 的最新版模型 GPT-4。

同時，谷歌評估了旗下可以解釋和生成代碼的最新生成式 AI 産品 AlphaCode 2，發現在競争性編程領域，它領先 85% 的競争對手。

DeepMind 的 CEO Demis Hassabis 稱，谷歌運行了 32 種完善的基準指标相關測試，對比 Gemini 和 GPT-4 這兩個模型，既有諸如多任務語言理解這類廣泛的整體測試，到生成 Python 代碼這種單一能力的測試。32 種基準指标種，Gemini 有 30 項都 " 遙遙領先 "。

以下谷歌報告的截圖可見，在多選問題、數學問題、Python 代碼任務、閱讀等方面，Gemini Pro 和 Ultra 與 GPT-4、GPT-3.5 等其他 LLM 的評分對比。

Gemini 爲原生多模态模型在谷歌更高性能雲芯片 TPU v5p 訓練

谷歌稱，Gemini 是一種 " 原生多模态 "AI 模型。這意味着它從一開始就經過預先訓練，可以處理用戶基于文本和圖像的提示詞任務，支持文本和圖像的服務。比如家長可以通過上傳數學問題的圖像，以及在工作表裏嘗試解決問題的照片，幫助孩子做家庭作業。Gemini 還能閱讀答案，理解爲何是對的、爲何是錯的，并解釋需要進一步說明的概念。

谷歌稱，谷歌搜索運用生成式 AI 技術的 " 搜索生成式體驗 " 在明年融入和 Gemini 的新功能。

谷歌承認，Gemini 仍然可能存在 AI 産生的虛假信息或者捏造信息。Collins 稱這是尚未解決的研究問題，不過他說，Gemini 有迄今爲止谷歌 AI 模型的最全面安全評估。爲評估 Gemini 的安全性，谷歌對該模型進行了對抗性測試，模仿有不良企圖的用戶利用該模型輸入提示詞，幫助研究人員檢查模型中是否存在仇恨言論和政治偏見。這類測試包括 " 真實毒性提示詞 "，它包含從網上提取的 10 萬多個提示詞。

谷歌強調 Gemini 的 AI 工具效率會非常高、速度非常快。它在谷歌自研的新版雲芯片 Tensor Processing Units（TPU）上訓練，TPU v5p 的性能更強，該芯片訓練現有模型的速度比前代快 2.8 倍。TPU v5p 是爲數據中心的訓練和大模型運行而設計。

谷歌機器學習副總裁 Amin Vahdat 表示，這種方法讓谷歌 " 對未來标準 AI 基礎設施有了新的認識 "。谷歌仍然使用第三方 AI 芯片運行 Gemini 模型。

谷歌提供的下圖可見，谷歌數據中心内成排的谷歌雲 TPU v5p AI 加速器超級計算機。