萬衆期待的Gemini大模型：比GPT-4強，但強的不多？

谷歌憋了好幾個月的大招、人類迄今爲止最強大的 AI 模型—— Gemini，終于發布了。按照谷歌的說法，它可以像人類一樣理解我們周圍的世界，處理代碼、文字、音頻、圖像和視頻通通不在話下。Google DeepMind 團隊稱，Gemini 在 32 項基準性能測試中的 30 項上超過了 GPT-4。

然而，多位科技分析人士認爲，雖然 Gemini 的性能的确優于現有的多模态模型，但它和 GPT-4 的差距并沒有那麽誇張。從谷歌放出的演示視頻來看，很少有什麽我們在過去一年的 AI 炒作狂潮裏沒見過的東西。

如果以谷歌的算力資源、研發能力和豐富的數據都僅能做到勉強擊敗 GPT4，更大問題在于，Gemini 或許就是以人類目前的技術，能夠打造的大模型的上限了。

比 GPT-4 強，但強得不多

根據谷歌放出的演示視頻，Gemini 是玩 " 你畫我猜 " 的一把好手，不僅可以準确地描述測試者在紙上畫出的圖形，還能根據測試者畫出的輪廓猜測她繪制的是什麽東西。

在另一個例子中，測試者給 Gemini 展示了一張煎蛋卷在平底鍋中烹饪的圖片，并用語音詢問煎蛋卷是否已經煮熟，Gemini 也用語音回答道：" 還沒有煮熟，因爲雞蛋還是液态的。"

看起來很新鮮，但 Gemini 真的如谷歌所言的全方位超越 GPT-4 嗎？

不見得。

基準的 MMLU 測試用于衡量 AI 模型在文本和圖像的任務上的表現，包括閱讀理解、大學數學以及物理、經濟學和社會科學中的多項選擇測驗。谷歌 CEO 劈柴表示，在 MMLU 測試中，Gemini 全面擊敗 GPT4。對于純文本問題，Gemini 得分爲 90，人類專家得分爲 89。GPT-4 得分爲 86；對于多模态問題，Gemini 得分爲 59，而 GPT-4 得分爲 57。

聖達菲研究所的 AI 研究員 Melanie Mitchell 對媒體表示，Gemini 基準測試的表現令人印象深刻，這的确說明 Gemini 是一個非常複雜的人工智能系統，但她指出，自己并沒有明顯感受到 Gemini 和 GPT-4 在實際能力上的差距。

Mitchell 還指出，Gemini 在語言和代碼基準測試上的表現要比在圖像和視頻上表現更好：

" 多模态基礎模型仍然有很長的路要走，才能在許多任務裏任務大範圍、可靠地應用。"

斯坦福大學基礎模型研究中心主任 Percy Liang 也對媒體表示，雖然 Gemini 具有良好的基準分數，但由于我們不知道訓練數據中的内容，很難知道如何解釋這些數字。

Google DeepMind 還稱，在人類測試者的幫助下，Gemini 減輕了幻覺出現的頻率，在回答問題時已經變得更加準确，在被要求時可以給出信源，并且不會再遇到難回答的問題時胡編亂造。

不過，這一點同樣需要谷歌公開更多數據，否則目前也很難去驗證。

倉促上陣

深度學習教父傑夫 · 辛頓（Geoffrey Hinton）在四月份離開谷歌時對媒體表示

" 谷歌一直非常謹慎地向公衆發布 AI 産品，可能發生的壞事太多了，谷歌不想毀了自己的聲譽。面對看似不值得信賴或無法銷售的技術，谷歌采取了謹慎的态度，因此錯過了更關鍵的機會。"

可能正是因爲意識到了這一點，所以谷歌在推動 Gemini 上線時非常着急。

Gemini 最強大的滿血版 Gemini Ultra，還需要等待幾個月才能和公衆見面。谷歌稱，Ultra 版目前隻會提供給部分客戶、開發者、合作夥伴以及安全與責任專家使用。

有分析人士指出，谷歌甚至自己也不了解 Gemini Ultra 的所有新功能，也沒有爲 Gemini 制定出貨币化戰略。考慮到人工智能模型訓練和推理的高昂成本，谷歌可能需要很長時間才能想出盈利策略。

會不會是谷歌的營銷策略導緻了今天産品發布的失敗？也許是吧。又或者，打造最先進的生成式人工智能模型真的很難——即使你重組了整個人工智能部門來加快進程，效果可能也不盡如人意。