谷歌 Gemini 大模型和 OpenAI 的 GPT 誰更出色?Gemini 相比谷歌之前的模型有了多大進步?
目前,公司自己吹噓能吊打 GPT-4 的 Gemini Ultra 還得等明年才能上線,但谷歌 Bard 聊天機器人已經換上了低配版本 Gemini Pro(對标 GPT-3.5)。
科技評論網站 ARS TECHNICA,讓 Gemni Pro、GPT-3.5 和 GPT-4 在數學、編程、文本生成等方面進行了一次全面 PK,同時還附上了 4 月份對舊版本 Bard(運行 PaLM 2 模型)的測試結果,來展現谷歌 Bard 取得的進步,并展現了這些 AI 助手到底哪一個對普通人的工作效率提升最大。
結果顯示,雖然有了 Gemini Pro 的加持,但谷歌 Bard 聊天機器人在大部分項目上還是打不過 ChatGPT。不過相比 8 個月前的舊版 Bard,已經有了質的飛躍。
第一題 幽默
prompt:寫 5 個原創冷笑話
(從上至下分别爲 Gemini Pro、舊版 Bard、GPT-4 和 GPT-3.5 的回答)
從答案來看,幾個 AI 大模型的笑話在 " 原創性 " 上全軍覆沒。經作者查證,所有生成的冷笑話都可以在網上查到,或者隻是稍微改動了幾個字。
Gemini 和 ChatGPT-4 寫出了一模一樣的笑話—— " 我手裏有本講反重力的書,我根本沒法把它放下來 "。而 GPT-3.5 和 GPT-4 也有兩個笑話重複了。
PK 結果:平局
第二題 辯論
prompt:寫一篇 PowerPC 處理器擁趸與英特爾處理器擁趸之間的 5 行辯論發言,時間約爲 2000 年
相比舊版 Bard, Gemini Pro 進步明顯,至少多了很多行業術語,比如 AltiVec 指令、RISC 與 CISC 設計以及 MMX 技術,這在那個時代的許多技術論壇讨論中都不會顯得突兀。
而且,Gemini Pro 雖然隻按要求列出五行,但所撰寫的辯論内容還可以一直延續下去。而舊版 Bard 則直接第五行收尾了。
相比之下,GPT 系列生成的回答都沒有使用太多專業術語,而把重點放在 " 功率與兼容性 " 上,對非技術極客來說,GPT 系列的論點更容易理解。不過,GPT-3.5 的回答相當冗長,GPT-4 的論證相比之下更加簡明扼要。
PK 結果:GPT 勝出
第三題 數學
prompt:如果用 3.5 英寸軟盤來安裝微軟 Win 11,一共需要多少張軟盤?
舊版 Bard 給出的答案是 "15.11 張 ",這是一個完全錯誤的答案。而 Gemini 則正确估計了 Windows 11 的安裝大小(20 至 30GB,并按照 20GB 的估計值正确計算出需要 14223 張 1.44MB 軟盤。Gemini 還根據谷歌搜索進行了 " 雙重檢查 ",有助于增強用戶對答案的信心。
相比之下,ChatGPT 就顯得有些力不從心了。在 ChatGPT-3.5 把 Win 11 的大小錯誤估算成了 10 個 G,另一方面,GPT-4 也估算成了錯誤的 64GB(這似乎是最低存儲空間要求,而不是操作系統在安裝時實際使用的空間)。
PK 結果:谷歌勝出
第四題 總結段落
promp:總結一段關于 AI 監管的文章
Gemini Pro 生成的文章十分簡潔,并且給出了引文的鏈接。但它的總結似乎過于簡潔了,甚至删除了舊版 Bard 原來有的一些關鍵細節,比如視頻是由十個兩秒鍾的片段拼接而成的。雖然改寫在一定程度上提高了可讀性,但卻犧牲了完整性。
ChatGPT 的摘要因爲不夠簡潔而丢了一些分:生成的摘要從 99 個字(GPT-4)到 108 個字(GPT-3.5)不等,而谷歌新舊版 Bard 的摘要分别隻有 63 到 66 個字。
不過,ChatGPT 總結了更多重要的細節,如媒體的反應、原發帖人的名字和 subreddit 等,而這些都被 Gemini 忽略了。
PK 結果:GPT 勝
第五題 事實檢索
prompt:誰發明了電子遊戲?
Bard 在道題上又有了重大改進。舊版 Bard 隻關注 Ralph Baer 的 Brown Box 和 Magnavox Odyssey 作品(信息似乎直接摘自維基百科),而新版 Gemini Pro 則準确而簡潔地指出了 William Higinbotham 早先 " 雙人網球 " 的貢獻。
随後, Gemini 又從 " 發明 " 擴展到了諾蘭 · 布什内爾、特德 · 達布尼和阿爾科恩等 " 對電子遊戲的早期發展做出了重大貢獻 " 的人物,并提供了關于每個人的基本準确的相關信息。
不過,緊接着 Gemini 又對蘋果的兩位創始人喬布斯和沃茲尼亞克的工作進行了一番胡扯,卻沒有提及他們早年在遊戲公司雅達利公司的工作。
GPT-3.5 和舊版 Bard 一樣,也是以 Ralph Baer 爲中心。雖然它提到 " 多年來,不同的個人和公司都爲該行業做出了貢獻 ",但沒有提及這些重要人物的名字。
而 GPT-4 首先指出電子遊戲的發明 " 不能歸功于某一個人 ",并将其總結擴展到希金博瑟姆、布什内爾,以及至關重要的史蒂夫 · 拉塞爾 1962 年在 PDP-1 上創造的《太空大戰》。
PK 結果:GPT 勝(但 Gemini 表現比 GPT-3.5 更好)
第六題:創意寫作
prompt:寫兩段關于林肯發明籃球的虛構故事。
舊版 Bard 的寫作很出色,但遺憾的是篇幅嚴重超出要求,有太多冗長的句子。Gemini Pro 相比之下寫得更加簡潔,重點更加突出。而 GPT 寫的故事也都有其獨特的魅力和令人回味的語句。
第七題 代碼能力
prompt:編寫一個 Python 腳本,在其中輸入 "Hello World",然後無休止地創建一個随機重複字符串。
雖然 Bard 從 6 月份開始就能生成代碼,谷歌也曾吹噓 Gemini 的 AlphaCode 2 系統能夠幫助程序員,但這次測試讓人大跌眼鏡。
Gemini 一直給出 " 信息可能有誤,無法生成 " 的回複。如果堅持要求它生成代碼,則會幹脆宕機,并 " 提示 Bard 仍在實驗中 "。
與此同時,GPT-3.5 和 GPT-4 模型下生成了相同的代碼。這些簡單明了的代碼無需任何編輯就能完美運行,順利通過試用。
最終,在七項測試中,GPT 取得了 4 勝 1 負 2 平的碾壓式勝利。但我們也能看到,谷歌 AI 大模型生成的結果,在質量上有了明顯的進步。在數學、總結信息、事實檢索和創意寫作測試,配備 Gemini 的 Bard 都比 8 個月前有了顯著飛躍。
當然,評判這樣的比賽有一定的主觀性。具體孰優孰劣還需要更全面、更詳盡的測試。無論如何,至少,以谷歌目前展現出來的實力來看,即将推出的 Gemini Ultra 勢必會成爲 GPT-4 的有力競争對手。