GPT-4地位難保，谷歌Gemini新王登基？

出品｜虎嗅科技組

作者｜齊健

頭圖｜Google

當地時間 12 月 6 日，谷歌官宣了其最新大模型 Gemini 1.0。

Gemini 1.0 與 LLaMA 模型相似，也是一套系列模型，其中包含三個版本：

Gemini Ultra ——參數量最大，能力最強，适用于高度複雜的任務。

Gemini Pro ——可擴展至各種任務的模型。

Gemini Nano ——高效的設備端任務模型。

Gemini 1.0 主打多模态能力，谷歌将 Gemini 定義爲一款 " 原生多模态（natively multimodal）" 模型。

在模型能力方面，谷歌稱 Gemini Ultra 的性能在大型語言模型（LLM）研發中使用的 32 個廣泛使用的學術基準中的 30 個超過了當前最先進的結果。

在 MMLU（大規模多任務語言理解）測試框架中，Gemini Ultra 的得分高達 90.0%，甚至超越了人類專家。

Gemini 被谷歌 CEO Sundar Pichai 稱爲 " 谷歌迄今爲止最大、能力最強的 AI 模型 "。

Sundar Pichai 在 Gemini 的官宣博客中寫道：

" 在許多領先的基準測試中都具有最先進的性能。谷歌的第一個版本 Gemini 1.0 針對不同尺寸進行了優化：Ultra、Pro 和 Nano。這些是 Gemini 時代的第一個模型，也是谷歌今年早些時候成立 Google DeepMind 時的願景的首次實現。這個模型的新時代代表了谷歌作爲一家公司所做出的最大的科學和工程努力之一。我對未來以及雙子座将爲世界各地的人們帶來的機會感到由衷地興奮。"

目前，谷歌官方稱其主打的聊天機器人 Bard 已升級至 Gemini Pro 版本，能力在推理、規劃和理解等方面得到顯著提升，并繼續免費向用戶提供服務。谷歌預計明年初推出更爲先進的 "Bard Advanced"，屆時将采用 Gemini Ultra。

在 Gemini 發布之前，谷歌在生成式 AI 和 LLM 方面主推的兩款模型 PaLM 2 和 LaMDA，在用戶當中收獲的評價一直不高，相對于業界領軍的 GPT-4 差距很大。

由此，傳聞中谷歌重點研發的 Gemini 模型一直被寄予厚望。Gemini 也是谷歌大腦（Google Brain）和 DeepMind 合并組建 Google DeepMind 之後的首個重要産品。

下面我們來看看，Gemini 到底牛在哪？

超過人類專家，向強人工智能邁近一步？

"Gemini 在 MMLU 基準測試中超越人類專家。"

雖然，有了 AlphaGo 的經驗，我們并不認爲 AI 在某些領域超越人類是什麽新鮮事。但今時不同往日，在 ChatGPT 帶來的 AGI、強人工智能 " 威懾 " 下，任何被稱爲超越人類的 AI，多多少少都會引人側目。

那麽在這個測試集中超越人類專家，到底有多厲害呢？

大型語言模型（LLM）的主流評測數據集包括：GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA 等。通常用于評估模型在語言理解、推理、閱讀理解和常識推理等方面的能力。

MMLU（大規模多任務語言理解）是一個結合了數學、物理、曆史、法律、醫學和倫理學等 57 個科目的測試集。相比于其他測試集，MMLU 的廣泛性和深度更強，它通過大量和多樣的任務來測試 AI 模型在理解自然語言方面的能力，特别是在複雜和多變的真實世界場景中的表現。這使得 MMLU 成爲一個極具挑戰性的評測框架，可以全面地評估和推動大型語言模型的發展。

GPT-4 與 Gemini 在 MMLU 測試集的對比

這個框架通常包括數以千計的不同任務，涵蓋廣泛的主題和挑戰。MMLU 的目的是提供一個全面且多樣化的方法，測試和評估語言模型在各種複雜和現實世界場景中的表現。其中的測試任務可能包括理解笑話、回答有關世界曆史的問題、解釋科學現象等衆多更接近于人類知識、常識和理解能力的項目。

在 MMLU 測試中超越人類專家，也可以理解爲，在這個測試框架下，Gemini 在 " 各種複雜和現實世界場景中的表現 " 超越了人類專家。

谷歌在官方博客中稱：Gemini 利用 MMLU 基準方法使 Gemini 能夠利用其推理能力在回答難題之前更仔細地思考，從而比僅使用第一印象有顯着改進。

除此之外，Gemini Ultra 還在新的 MMMU（專家 AGI 的大規模多學科多模式理解和推理）基準測試中取得了 59.4% 的最先進分數，該基準測試由跨越不同領域、需要深思熟慮的推理的多模态任務組成。

谷歌的測試顯示 Gemini Ultra 的性能優于之前最先進的模型，無需從圖像中提取文本以進行進一步處理的對象字符識别 ( OCR ) 系統的幫助。這些基準凸顯了雙子座天生的多模态性，并表明了雙子座更複雜推理能力的早期迹象。

Gemini 在文本和編碼等一系列基準測試中的表現

在某個測試集中超越人類專家，對于 AGI 或者強人工智能來說雖然還相去甚遠，但仍可以說是在這條路上邁出的堅實一步。

原生多模态，比 GPT-4 更強大？

其實 Gemini 的 LLM 性能表現并不是他最大的亮點。Gemini 真正值得關注的差異化能力是 " 原生多模态 "。

首先，什麽是 "Gemini ’ s native multimodality"（Gemini 的原生多模态能力）？

原生多模态能力，指的是 Gemini 模型固有的能力，可以直接理解和處理多種不同類型的數據，而不需要額外的專門處理或轉換。

有人可能會疑惑，那這與 GPT-4 有何不同？

打個簡單的比方：假如 GPT-4 是一個詩人，他不僅擅長寫詩，還會畫畫，但寫詩是他的職業，畫畫隻是他的副業。GPT-4 能處理文字（寫詩）和圖片（畫畫），但它主要還是以文字處理爲強項。

具有 " 原生多模态能力 " 的 Gemini 則是一個詩人、畫家 " 雙料人才 "，他在寫詩和畫畫方面同樣出色，沒有哪一方面比另一方面弱。Gemini 能夠同時處理文字和圖片，并且在這兩個方面都做得很好，沒有主次之分。

GPT-4 的多模态能力可能更多地是通過将不同模型的能力集成到一個框架中來實現的，而不是所有功能都在一個統一的模型中原生實現。作爲一個大型語言模型，GPT-4 的主要優化和訓練是圍繞語言理解和生成。對于圖像處理，雖然它展現了一定的能力，但可能不如那些專門針對圖像處理優化的模型。而一個真正的本地多模态模型會在所有模态上都進行平衡和優化。

Gemini 的多模态理解能力

原生多模态能力意味着模型能夠更自然、高效地處理和融合多種類型的數據，這在實現更複雜的 AI 應用方面具有重要意義。

當然，這也是更接近人類的理解方式。人類在理解世界時自然地融合了視覺、聽覺和語言等多種感官信息。一個具有本地多模态能力的 AI 模型在處理信息時也采用了類似的綜合方式，這更接近于人類的理解和認知方式。

全方位 " 打敗 "GPT-4

Gemini 不僅是在模型能力和多模态能力方面敢與 GPT-4 一争高下。在應用方面，也提供了更多選擇。

" 小模型 "

模型系列中的最小尺寸的 Gemini Nano 模型，被設計爲适用于内存受限的端側設備。它在多種任務上展示了出色的性能，尤其是在多模态和多語言處理方面。Gemini Nano 的這些特性使其成爲适合在資源受限環境中使用的強大工具。

雖然目前大模型的主流趨勢仍是 " 依雲而生 "，但在 AI 未來的商業化版圖中，離線、個人化、小型化的端側模型正在受到越來越多的重視。

過去幾個月中，高通、聯想等衆多巨頭都在反複強調自己在端側生成式 AI 的戰略布局。高通推出的最新一代骁龍芯片對生成式 AI 提供了強大的支持能力，聯想則提出 AI PC 概念，并強調未來一段時間裏将圍繞 AI 對已有的全部産品展開大刀闊斧地改革。

然而，硬件設備廠商非常活躍的同時，AI 廠商對端側的關注卻并不怎麽高。以百模大戰的國内市場爲例，目前隻有個位數的廠商正式宣布過自己的端側小模型。其中包括雷軍在 8 月的年度演講中提到的小米 MiLM 模型的 13 億參數版本，以及通義千問在 12 月 1 日開源的 Qwen-1.8B 模型。

在這方面，相比 OpenAI，谷歌更有動力去研究端側小模型。畢竟谷歌本身具備 Pixel 手機和 Android 的雙重優勢。

訓練

谷歌在訓練 Gemini 過程中大量使用了自研的張量處理單元（TPU）v4 和 v5e。

在 TPU 上，Gemini 的運行速度明顯快于早期、較小且功能較差的型号。這些定制設計的人工智能加速器一直是谷歌人工智能産品的核心，這些産品爲搜索、YouTube、Gmail、谷歌地圖、Google Play 和 Android 等數十億用戶提供服務。它們還使世界各地的公司能夠經濟高效地訓練大規模人工智能模型。

Google 數據中心内的一排 Cloud TPU v5p AI 加速器超級計算機

随着 Gemini 的問世，谷歌也宣布了 TPU 系統的最強升級 Cloud TPU v5p，專爲訓練尖端 AI 模型而設計。

在訓練優化方面，Gemini 增加了對模型并行性和數據并行性的利用，并對網絡延遲和帶寬進行了優化。Gemini 還使用了 Jax 和 Pathways 編程模型，爲複雜的數學運算（如在機器學習中常見的運算）提供了優化的支持。

Jax 特别适用于高效地執行大規模的數組運算。Pathways 指用于管理和協調大規模訓練任務的編程模型或框架。通過使用這些工具，Gemini 模型的開發者可以使用單個 Python 進程來協調整個訓練過程，這樣可以簡化開發和訓練工作流，同時利用 Jax 和 Pathways 的高效性能。

複雜推理能力

Gemini 1.0 複雜的多模式推理功能可以幫助理解複雜的書面和視覺信息。這使得它在發現大量數據中難以辨别的知識方面具有獨特的能力。

批改物理作業

其通過閱讀、過濾和理解信息從數十萬份文檔中提取見解的卓越能力将有助于在從科學到金融的許多領域以數字速度實現新的突破。

Gemini 1.0 經過訓練，可以同時識别和理解文本、圖像、音頻等，因此它可以更好地理解微妙的信息，并可以回答與複雜主題相關的問題。這使得它特别擅長解釋數學和物理等複雜學科的推理。

編程

Gemini 可以理解、解釋和生成世界上最流行的編程語言（如 Python、Java、C++ 和 Go）的高質量代碼。它跨語言工作和推理複雜信息的能力使其成爲世界領先的編碼基礎模型之一。

Gemini Ultra 在多個編碼基準測試中表現出色，包括 HumanEval（用于評估編碼任務性能的重要行業标準）和 Natural2Code（谷歌内部保留的數據集），該數據集使用作者生成的源而不是基于網絡的信息。

Gemini 還可以用作更高級編碼系統的引擎。兩年前，谷歌推出了達到競賽水平的 AI 代碼生成系統 AlphaCode。如今基于 Gemini 技術開發，剛剛又開發了 AlphaCode 2，專門針對競技編程任務進行了優化和增強。

Gemini 的下一步規劃

雖然谷歌在技術文件和官方博客中把 Gemini 吹得很神，好像已經把 OpenAI 踩在腳下了。但今天的發布其實隻是一個 " 論文 " 而已，真正有能力對标 GPT-4 的 Gemini Ultra 要到明年年初才會上線。

Gemini 家族的老二，Gemini Pro 目前已經準備開始爲谷歌的對話機器人産品 Bard 提供支持了。

谷歌在博客中稱：從今天開始，Bard 将使用 Gemini Pro 的微調版本來進行更高級的推理、規劃、理解等。這是 Bard 自推出以來最大的升級。它将在 170 多個國家和地區提供英語版本，谷歌計劃在不久的将來擴展到不同的模式并支持新的語言和地點。

不過，截至發稿，在 bard 上的測試仍顯示未升級到 Gemini，且 bard 對 Gemini 的了解也十分有限。

提問 Bard 是否已經升級 Gemini

Gemini Nano 則被規劃到了 Pixel。谷歌将在 Pixel 8 Pro 中首次内置 Gemini Nano。這款手機将支持 Recorder 應用中的 Summarize 等新功能，并從 WhatsApp 開始推出 Gboard 中的 Smart Reply，明年還會推出更多消息應用。

從 12 月 13 日開始，開發者和企業客戶可以通過 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 訪問 Gemini Pro 。

Google AI Studio 是一款基于網絡的免費開發者工具，可使用 API 密鑰快速構建應用程序原型并啓動應用程序。當需要完全托管的 AI 平台時，Vertex AI 允許對 Gemini 進行自定義，提供全面的數據控制，并受益于額外的 Google Cloud 功能，以實現企業安全、安全、隐私以及數據治理和合規性。

Android 開發人員還可以通過 AICore（Android 14 中提供的新系統功能，從 Pixel 8 Pro 設備開始）使用 Gemini Nano（谷歌最高效的設備端任務模型）進行構建。

除此之外，Gemini 已經确定會很快融入到谷歌的業務中。在接下來的幾個月中，Gemini 将出現在更多谷歌産品和服務中，例如搜索、廣告、Chrome 和 Duet AI。

谷歌稱已經開始在搜索中試驗 Gemini，它使用戶的搜索生成體驗（SGE）更快，美國英語的延遲減少了 40%，同時質量也得到了提高。

值得注意的是，對于谷歌來說，搜索始終是其看家業務。Gemini 在谷歌搜索、廣告業務中的全面鋪開，可能會徹底改變未來的廣告和營銷邏輯。

在最近的一次工業軟件研讨會中，一位工業企業高管對虎嗅吐槽說，" 谷歌的競争對手在互聯網上鋪了很多軟文，但是我們沒有買軟文。這就導緻這些軟文成了 LLM 訓練的數據，進而沉澱到它的知識庫中。在 AI 的意識裏，我們的競争對手已經被看作是默認的行業标準了。"

這種現象，早在 2022 年底，就已經有人預言了，"SEO is Dead, Long Live LLMO" 的口号。彼時的 ChatGPT 還沒有聯網功能，而今天的 Gemini 幾乎已經确定要融入到谷歌的搜索引擎中，并完全改變未來的網絡搜索邏輯。