谷歌憋了好幾個月的大招、人類迄今爲止最強大的 AI 模型—— Gemini,終于發布了。按照谷歌的說法,它可以像人類一樣理解我們周圍的世界,處理代碼、文字、音頻、圖像和視頻通通不在話下。Google DeepMind 團隊稱,Gemini 在 32 項基準性能測試中的 30 項上超過了 GPT-4。
然而,多位科技分析人士認爲,雖然 Gemini 的性能的确優于現有的多模态模型,但它和 GPT-4 的差距并沒有那麽誇張。從谷歌放出的演示視頻來看,很少有什麽我們在過去一年的 AI 炒作狂潮裏沒見過的東西。
如果以谷歌的算力資源、研發能力和豐富的數據都僅能做到勉強擊敗 GPT4,更大問題在于,Gemini 或許就是以人類目前的技術,能夠打造的大模型的上限了。
比 GPT-4 強,但強得不多
根據谷歌放出的演示視頻,Gemini 是玩 " 你畫我猜 " 的一把好手,不僅可以準确地描述測試者在紙上畫出的圖形,還能根據測試者畫出的輪廓猜測她繪制的是什麽東西。
在另一個例子中,測試者給 Gemini 展示了一張煎蛋卷在平底鍋中烹饪的圖片,并用語音詢問煎蛋卷是否已經煮熟,Gemini 也用語音回答道:" 還沒有煮熟,因爲雞蛋還是液态的。"
看起來很新鮮,但 Gemini 真的如谷歌所言的全方位超越 GPT-4 嗎?
不見得。
基準的 MMLU 測試用于衡量 AI 模型在文本和圖像的任務上的表現,包括閱讀理解、大學數學以及物理、經濟學和社會科學中的多項選擇測驗。谷歌 CEO 劈柴表示,在 MMLU 測試中,Gemini 全面擊敗 GPT4。對于純文本問題,Gemini 得分爲 90,人類專家得分爲 89。GPT-4 得分爲 86;對于多模态問題,Gemini 得分爲 59,而 GPT-4 得分爲 57。
聖達菲研究所的 AI 研究員 Melanie Mitchell 對媒體表示,Gemini 基準測試的表現令人印象深刻,這的确說明 Gemini 是一個非常複雜的人工智能系統,但她指出,自己并沒有明顯感受到 Gemini 和 GPT-4 在實際能力上的差距。
Mitchell 還指出,Gemini 在語言和代碼基準測試上的表現要比在圖像和視頻上表現更好:
" 多模态基礎模型仍然有很長的路要走,才能在許多任務裏任務大範圍、可靠地應用。"
斯坦福大學基礎模型研究中心主任 Percy Liang 也對媒體表示,雖然 Gemini 具有良好的基準分數,但由于我們不知道訓練數據中的内容,很難知道如何解釋這些數字。
Google DeepMind 還稱,在人類測試者的幫助下,Gemini 減輕了幻覺出現的頻率,在回答問題時已經變得更加準确,在被要求時可以給出信源,并且不會再遇到難回答的問題時胡編亂造。
不過,這一點同樣需要谷歌公開更多數據,否則目前也很難去驗證。
倉促上陣
深度學習教父傑夫 · 辛頓(Geoffrey Hinton)在四月份離開谷歌時對媒體表示
" 谷歌一直非常謹慎地向公衆發布 AI 産品,可能發生的壞事太多了,谷歌不想毀了自己的聲譽。面對看似不值得信賴或無法銷售的技術,谷歌采取了謹慎的态度,因此錯過了更關鍵的機會。"
可能正是因爲意識到了這一點,所以谷歌在推動 Gemini 上線時非常着急。
Gemini 最強大的滿血版 Gemini Ultra,還需要等待幾個月才能和公衆見面。谷歌稱,Ultra 版目前隻會提供給部分客戶、開發者、合作夥伴以及安全與責任專家使用。
有分析人士指出,谷歌甚至自己也不了解 Gemini Ultra 的所有新功能,也沒有爲 Gemini 制定出貨币化戰略。考慮到人工智能模型訓練和推理的高昂成本,谷歌可能需要很長時間才能想出盈利策略。
會不會是谷歌的營銷策略導緻了今天産品發布的失敗?也許是吧。又或者,打造最先進的生成式人工智能模型真的很難——即使你重組了整個人工智能部門來加快進程,效果可能也不盡如人意。