谷歌AI邁入新紀元：大模型Gemini“雖遲但到”，語言理解得分率達到90%

大模型，千呼萬喚始出來。

當地時間 12 月 6 日，正式殺入人工智能大模型領域， CEO 桑達爾・皮查伊（Sundar Pichai）在一篇博客中宣布了大模型 Gemini 1.0 正式上線。

" 現在，我們正與 Gemini 一起邁入下一段旅程。Gemini 是我們迄今爲止最強大、最通用的模型，它在許多領先的基準測試中都展現出了最先進的性能。" 皮查伊在博客中寫道。

據介紹，谷歌 Gemini 從一開始就被創建爲多模态模型。這意味着它可以歸納并流暢地理解、操作以及組合不同類型的信息，包括文本、代碼、音頻、圖像和視頻。

Gemini 也是迄今爲止規模最大、能力最強以及最靈活的人工智能模型，從數據中心到移動設備，它能在所有設備上高效地運行。

爲了實現在所有設備上運行，針對三種不同的尺寸對第一代模型 Gemini 1.0 進行了優化，并發布了三個版本，分别是 Ultra、Pro 和 Nano：

○ Gemini Ultra — 規模最大且功能最強大的模型，适用于高度複雜的任務。

○ Gemini Pro — 适用于各種任務的最佳模型。

○ Gemini Nano — 端側設備上最高效的模型。

從今天開始，Gemini 也将陸續登陸産品，比如其聊天機器人 Bard 将使用 Gemini Pro 的微調版本來進行更高級的推理、規劃、理解等任務。這是 Bard 自推出以來最大的升級。它将在 170 多個國家和地區提供服務，但目前僅支持英語，未來有望支持新的語言和地區。

表示，Gemini 是其人工智能發展過程中的一座重要裏程碑，也标志着邁進新紀元的開始，其将繼續快速創新，并以負責任的方式不斷提升模型能力。

自 OpenAI 于 2022 年底發布 ChatGPT 以來，人工智能領域就開啓了 " 大模型之戰 "，科技巨頭和初創公司紛紛下場，都希望在新一輪熱潮中搶占先機。這場激烈的競争持續至今，大模型和産品的性能是最受人關注的重中之重。" 師出名門 " 的 Gemini 當然也不會落下。

在性能比拼中，将 Gemini 的主要目标設定成了 GPT-4（和 GPT-4V），對于那些 GPT-4 不支持的任務，則選擇了目前水平最先進的模型（SOTA model）。

據介紹，從自然圖像、音頻和視頻理解到數學推理，在被大模型研究和開發中廣泛使用的 32 項學術基準中，Gemini Ultra （最大尺寸版本）的性能有 30 項都超過了目前最先進的水平。

圖 | 文本任務，展示 Gemini Ultra 的性能（來源：谷歌）

圖 | 多模态任務，展示 Gemini Ultra 的性能（來源：谷歌）

在大規模多任務語言理解（MMLU，Massive Multitask Language Understanding）測試中，Gemini Ultra 的得分率高達 90.0%，是第一個超過人類專家的模型。MMLU 綜合使用了數學、物理、曆史、法律、醫學和倫理等 57 個科目，可用于測試模型對于人類世界的知識儲備和解決問題的能力。

在新的大規模多學科多模态理解（ MMMU，Massive Multi-discipline Multimodal Understanding ）基準測試中，Gemini Ultra 也取得了 59.4% 的優異成績，該基準測試由橫跨不同領域、需要仔細推理的多模态任務組成。（MMMU 基準測試介紹及網站：https://mmmu-benchmark.github.io/）

在圖像基準測試中，Gemini Ultra 在不使用對象字符識别系統來提取圖像中的文本進行下一步處理的情況下，表現優于現有最好的模型。

領先的性能得益于 Gemini 的原生多模态屬性。表示，Gemini 1.0 具有複雜的多模态推理能力，可幫助理解複雜的書面和視覺信息。這使得它具有獨特的技能，可以在海量的數據中發掘難以辨别的知識内容。

" 它還擁有通過閱讀、過濾以及理解信息，從數十萬份文件中提取見解的卓越能力，将有助于在從科學到金融等多個領域以數字化速度實現新的突破。" 在博客中寫道。

此外，Gemini 還具備高級編程能力，可以理解、解釋和生成世界上最流行的編程語言（如 Python、Java、C++ 和 Go）的高質量代碼，還能夠跨語言工作并對複雜信息進行推理。

表示，Gemini Ultra 在多個編碼基準測試中表現出色，包括 HumanEval（用于評估編碼任務性能的重要行業标準）和 Natural2Code（内部使用的數據集），使用作者生成的信息作爲來源，而不是基于網絡的信息。

Gemini 還可用作更高級編碼系統的引擎。利用 Gemini 的專門版本，創建了更先進的代碼生成系統 AlphaCode 2，該系統擅長解決那些不僅需要編碼能力、也需要複雜數學和理論計算機科學知識的競賽性編程問題。

數十億人生活方式或被改變

在訓練方法上，使用了自家的硬件張量處理單元（TPUs，Tensor Processing Units）對 Gemini 1.0 進行了大規模訓練。在 TPU 上，Gemini 的運行速度明顯快于早期規模更小、性能更弱的模型。

與此同時，還将發布名爲 TPU v5p 的新一代 TPU，其訓練大型語言模型的速度比上一代 TPU v4 快 2.8 倍。

圖 | Google 數據中心的 Cloud TPU v5p 人工智能加速器超級計算機（來源：谷歌）

大模型普遍存在偏見和輸出有毒内容等問題，開發者會通過設置安全護欄等措施來應對。在這方面，表示 Gemini 擁有迄今爲止所有人工智能模型中最全面的安全評估，包括偏見和毒性評估。

博客寫道：" 我們對網絡攻擊、說服力和自主性等潛在風險領域進行了創新性的研究，并應用了 Google Research 一流的對抗性測試技術，幫助我們在部署 Gemini 之前檢測關鍵的安全問題。"

不過根據以往用戶使用大模型的經曆，人們總能找到各種方法來突破開發者設下的防護網，實現 " 越獄 "。因此，Gemini 在實際應用中的表現還需觀望。

除了開頭提到的 Bard，Gemini 還将被部署在 Pixel 系列手機上，以及其他産品線，包括搜索、廣告、Chrome 浏覽器等等。安卓開發者還可以通過 AICore（安卓 14 中提供的新系統功能）使用 Gemini Nano 進行構建。

值得注意的是，性能最強的 Gemini Ultra 目前尚未部署。正在對它進行大規模的信任和安全檢查，包括由可信賴的外部團隊進行紅隊測試，并在其被廣泛應用前通過微調和人類反饋強化學習進一步完善模型。

在模型的完善過程中，将向部分客戶、開發者、合作夥伴以及安全和責任專家提供 Gemini Ultra，以供其進行早期試驗和提供反饋。預計在 2024 年初向開發者和企業客戶提供該模型。

看得出來，對 Gemini 寄予了厚望，其表示：" 我們對人工智能賦能的世界所帶來的驚人可能性感到興奮——這是一個創新的未來，它将增強創造力、擴展知識、推進科學并改變世界各地數十億人的生活和工作方式。"