七大标準對比Gemini和ChatGPT，誰是AI No.1？

谷歌 Gemini 大模型和 OpenAI 的 GPT 誰更出色？Gemini 相比谷歌之前的模型有了多大進步？

目前，公司自己吹噓能吊打 GPT-4 的 Gemini Ultra 還得等明年才能上線，但谷歌 Bard 聊天機器人已經換上了低配版本 Gemini Pro（對标 GPT-3.5）。

科技評論網站 ARS TECHNICA，讓 Gemni Pro、GPT-3.5 和 GPT-4 在數學、編程、文本生成等方面進行了一次全面 PK，同時還附上了 4 月份對舊版本 Bard（運行 PaLM 2 模型）的測試結果，來展現谷歌 Bard 取得的進步，并展現了這些 AI 助手到底哪一個對普通人的工作效率提升最大。

結果顯示，雖然有了 Gemini Pro 的加持，但谷歌 Bard 聊天機器人在大部分項目上還是打不過 ChatGPT。不過相比 8 個月前的舊版 Bard，已經有了質的飛躍。

第一題幽默

prompt：寫 5 個原創冷笑話

（從上至下分别爲 Gemini Pro、舊版 Bard、GPT-4 和 GPT-3.5 的回答）

從答案來看，幾個 AI 大模型的笑話在 " 原創性 " 上全軍覆沒。經作者查證，所有生成的冷笑話都可以在網上查到，或者隻是稍微改動了幾個字。

Gemini 和 ChatGPT-4 寫出了一模一樣的笑話—— " 我手裏有本講反重力的書，我根本沒法把它放下來 "。而 GPT-3.5 和 GPT-4 也有兩個笑話重複了。

PK 結果：平局

第二題辯論

prompt：寫一篇 PowerPC 處理器擁趸與英特爾處理器擁趸之間的 5 行辯論發言，時間約爲 2000 年

相比舊版 Bard， Gemini Pro 進步明顯，至少多了很多行業術語，比如 AltiVec 指令、RISC 與 CISC 設計以及 MMX 技術，這在那個時代的許多技術論壇讨論中都不會顯得突兀。

而且，Gemini Pro 雖然隻按要求列出五行，但所撰寫的辯論内容還可以一直延續下去。而舊版 Bard 則直接第五行收尾了。

相比之下，GPT 系列生成的回答都沒有使用太多專業術語，而把重點放在 " 功率與兼容性 " 上，對非技術極客來說，GPT 系列的論點更容易理解。不過，GPT-3.5 的回答相當冗長，GPT-4 的論證相比之下更加簡明扼要。

PK 結果：GPT 勝出

第三題數學

prompt：如果用 3.5 英寸軟盤來安裝微軟 Win 11，一共需要多少張軟盤？

舊版 Bard 給出的答案是 "15.11 張 "，這是一個完全錯誤的答案。而 Gemini 則正确估計了 Windows 11 的安裝大小（20 至 30GB，并按照 20GB 的估計值正确計算出需要 14223 張 1.44MB 軟盤。Gemini 還根據谷歌搜索進行了 " 雙重檢查 "，有助于增強用戶對答案的信心。

相比之下，ChatGPT 就顯得有些力不從心了。在 ChatGPT-3.5 把 Win 11 的大小錯誤估算成了 10 個 G，另一方面，GPT-4 也估算成了錯誤的 64GB（這似乎是最低存儲空間要求，而不是操作系統在安裝時實際使用的空間）。

PK 結果：谷歌勝出

第四題總結段落

promp：總結一段關于 AI 監管的文章

Gemini Pro 生成的文章十分簡潔，并且給出了引文的鏈接。但它的總結似乎過于簡潔了，甚至删除了舊版 Bard 原來有的一些關鍵細節，比如視頻是由十個兩秒鍾的片段拼接而成的。雖然改寫在一定程度上提高了可讀性，但卻犧牲了完整性。

ChatGPT 的摘要因爲不夠簡潔而丢了一些分：生成的摘要從 99 個字（GPT-4）到 108 個字（GPT-3.5）不等，而谷歌新舊版 Bard 的摘要分别隻有 63 到 66 個字。

不過，ChatGPT 總結了更多重要的細節，如媒體的反應、原發帖人的名字和 subreddit 等，而這些都被 Gemini 忽略了。

PK 結果：GPT 勝

第五題事實檢索

prompt：誰發明了電子遊戲？

Bard 在道題上又有了重大改進。舊版 Bard 隻關注 Ralph Baer 的 Brown Box 和 Magnavox Odyssey 作品（信息似乎直接摘自維基百科），而新版 Gemini Pro 則準确而簡潔地指出了 William Higinbotham 早先 " 雙人網球 " 的貢獻。

随後， Gemini 又從 " 發明 " 擴展到了諾蘭 · 布什内爾、特德 · 達布尼和阿爾科恩等 " 對電子遊戲的早期發展做出了重大貢獻 " 的人物，并提供了關于每個人的基本準确的相關信息。

不過，緊接着 Gemini 又對蘋果的兩位創始人喬布斯和沃茲尼亞克的工作進行了一番胡扯，卻沒有提及他們早年在遊戲公司雅達利公司的工作。

GPT-3.5 和舊版 Bard 一樣，也是以 Ralph Baer 爲中心。雖然它提到 " 多年來，不同的個人和公司都爲該行業做出了貢獻 "，但沒有提及這些重要人物的名字。

而 GPT-4 首先指出電子遊戲的發明 " 不能歸功于某一個人 "，并将其總結擴展到希金博瑟姆、布什内爾，以及至關重要的史蒂夫 · 拉塞爾 1962 年在 PDP-1 上創造的《太空大戰》。

PK 結果：GPT 勝（但 Gemini 表現比 GPT-3.5 更好）

第六題：創意寫作

prompt：寫兩段關于林肯發明籃球的虛構故事。

舊版 Bard 的寫作很出色，但遺憾的是篇幅嚴重超出要求，有太多冗長的句子。Gemini Pro 相比之下寫得更加簡潔，重點更加突出。而 GPT 寫的故事也都有其獨特的魅力和令人回味的語句。

第七題代碼能力

prompt：編寫一個 Python 腳本，在其中輸入 "Hello World"，然後無休止地創建一個随機重複字符串。

雖然 Bard 從 6 月份開始就能生成代碼，谷歌也曾吹噓 Gemini 的 AlphaCode 2 系統能夠幫助程序員，但這次測試讓人大跌眼鏡。

Gemini 一直給出 " 信息可能有誤，無法生成 " 的回複。如果堅持要求它生成代碼，則會幹脆宕機，并 " 提示 Bard 仍在實驗中 "。

與此同時，GPT-3.5 和 GPT-4 模型下生成了相同的代碼。這些簡單明了的代碼無需任何編輯就能完美運行，順利通過試用。

最終，在七項測試中，GPT 取得了 4 勝 1 負 2 平的碾壓式勝利。但我們也能看到，谷歌 AI 大模型生成的結果，在質量上有了明顯的進步。在數學、總結信息、事實檢索和創意寫作測試，配備 Gemini 的 Bard 都比 8 個月前有了顯著飛躍。

當然，評判這樣的比賽有一定的主觀性。具體孰優孰劣還需要更全面、更詳盡的測試。無論如何，至少，以谷歌目前展現出來的實力來看，即将推出的 Gemini Ultra 勢必會成爲 GPT-4 的有力競争對手。