最近谷歌發布的 Gemini 格外引人注目,其号稱是第一個在各種任務中可與 OpenAI 的 ChatGPT 相媲美的大模型。
報道顯示,Gemini 的 "Ultra" 版本在各種任務上都優于 GPT-4,而 Gemini 的 "Pro" 版本則與 GPT-3.5 不相上下。
針對兩個當紅炸子雞的較量,美國卡内基梅隆大學近日展開了一項研究,深入探讨了谷歌 Gemini 的語言理解和生成能力,并将其與 OpenAI 的 GPT 系列作了對比,得到了有趣的結論——谷歌 Gemini 的綜合性能與 ChatGPT 仍有較大差距。
論文地址:https://arxiv.org/pdf/2312.11444.pdf
一、Gemini 僅媲美 GPT-3.5 Turbo
CMU 的這項研究主要探讨了兩個問題:
其一,對 OpenAI GPT 和 Google Gemini 模型的能力進行了第三方客觀比較,并提供了可重現的代碼和完全透明的結果;
其二,對結果進行了更深入的研究,找出兩類模型中某一類模型分别擁有的優勢領域。
研究團隊對測試各種語言能力的 10 個數據集進行了分析,包括推理、回答基于知識的問題、解決數學問題、語言間翻譯、生成代碼以及充當指令遵循代理。
在所有的基準測試任務基礎上,CMU 團隊分析發現:
Gemini Pro 模型在模型大小和類别上與 GPT 3.5 Turbo 相當,其準确度一般與 GPT 3.5 Turbo 相當,但略遜于 GPT 3.5 Turbo,比 GPT 4 差很多。
Gemini Pro 的平均性能略低于 GPT 3.5 Turbo,尤其是在多選題的回答順序偏差、多位數數學推理、過早終止智能體任務以及因激進的内容過濾而導緻回答失敗等方面存在問題。
在特别長和複雜的推理任務中,Gemini 的表現優于 GPT 3.5 Turbo,包括生成非英語語言以及處理更長、更複雜的推理鏈。而在不對回答進行過濾的任務中,Gemini 也善于使用多種語言。
圖爲基準測試的主要結果(最佳模型以粗體顯示,次佳模型以下劃線顯示。Mixtral 隻對部分任務進行了評估。)
二、大模型關鍵能力分析
在大模型的幾項關鍵能力上,團隊的具體研究結果如下:
知識圖譜問答能力
在大模型的問答能力層面,從上圖中可以看出每個模型在部分代表性任務上的表現,與 GPT 3.5 相比,Gemini Pro 在大多數任務上表現不佳,思維鏈提示降低了各子任務之間的差異。
團隊又深入研究 Gemini Pro 性能低于 / 優于 GPT 的任務 3.5 的差距,得出結論:
1)Gemini Pro 在 human_sexuality(社會科學)、formal_logic(人文科學)、elementary_mathematics(STEM)和 professional_medicine(專業領域)方面落後于 GPT 3.5。
2)在 Gemini Pro 優于 GPT 3.5 Turbo 的兩項任務中,Gemini Pro 隻取得了微弱的優勢。
推理能力
在推理能力層面, Gemini Pro 的整體準确率略低于 GPT 3.5 Turbo,遠低于 GPT 4 Turbo,但 Gemini Pro 在更長、更複雜的問題上表現不佳,而 GPT 模型對此則更爲穩健。
文中亦給出了 GPT 3.5 Turbo 性能超過 Gemini Pro 最多的任務:
數學能力
從數學推理的總體結果可以看出,在包含多種語言模式的 GSM8K、SVAMP 和 ASDIV 任務中,Gemini Pro 的準确率略低于 GPT 3.5 Turbo,遠低于 GPT 4 Turbo。
在 MAWPS 任務中,所有模型的準确率都超過了 90%,但 Gemini Pro 仍略遜于 GPT 模型。
代碼生成能力
代碼能力生成方面,在英語任務中,Gemini Pro 在較長的輸入和輸出方面表現較強。分析結果可以發現,在大多數使用庫的情況下,如 mock、pandas、numpy 和 datetime,Gemini Pro 的性能比 GPT 3.5 差。
不過,在 matplotlib 的情況下,它的性能要優于 GPT 3.5 和 GPT 4,這表明 Gemini 在通過代碼執行繪圖可視化時具有更強的能力。
機器翻譯能力
在翻譯能力上,Gemini Pro 有 8 種語言的性能優于 GPT 3.5 Turbo 和 GPT 4 Turbo。相比之下,Gemini Pro 在 20 種語言中的 8 種語言上的表現優于 GPT 3.5 Turbo 和 GPT 4 Turbo,并在 4 種語言上取得了最佳表現。不過,Gemini Pro 在大約 10 種語言對中表現出強烈的阻塞響應趨勢。
雷峰網雷峰網雷峰網