谷歌Gemini剛發就惹質疑：測試标準有失偏頗，效果視頻疑似剪輯 - 青年圖摘

谷歌憋了許久的大招，雙子座Gemini 大模型終于發布！其中一圖一視頻最引人注目：

一圖，MMLU 多任務語言理解數據集測試，Gemini Ultra 不光超越 GPT-4，甚至超越了人類專家。

一視頻，AI 實時對人類的塗鴉和手勢動作給出評論和吐槽，流暢還很幽默，最接近賈維斯的一集。

然鵝當大家從驚喜中冷靜下來，仔細閱讀随之發布的 60 頁技術報告時，卻發現不妥之處。

（沒錯，沒有論文，OpenAICloseAI 你開了個什麽壞頭啊）

MMLU 測試中，Gemini 結果下面灰色小字标稱 CoT@32，展開來代表使用了思維鏈提示技巧、嘗試了 32 次選最好結果。

而作爲對比的 GPT-4，卻是無提示詞技巧、隻嘗試 5 次，這個标準下 Gemini Ultra 其實并不如 GPT-4。

以及原圖比例尺也有點不厚道了，90.0% 與人類基準 89.8% 明明隻差一點，y 軸上卻拉開很遠。

HuggingFace 技術主管 Philipp Schmid 用技術報告中披露的數據修複了這張圖，這樣展示更公平恰當：

每到這種時候，總少不了做表情包的老哥飛速趕到戰場：

但好在，同樣使用思維鏈提示技巧 +32 次嘗試的标準時，Gemini Ultra 還是确實超越了 GPT-4 的。

Jeff Dean 在一處讨論中對這個質疑有所回應，不過大家并不買賬。‍‍

另外，對于那段精彩視頻，也有人從開篇的文字免責聲明中發現了問題。

機器學習講師Santiago Valdarrama認爲聲明可能暗示了展示的是精心挑選的好結果，而且不是實時錄制而是剪輯的。

後來谷歌在一篇博客文章中解釋了多模态交互過程，幾乎承認了使用靜态圖片和多段提示詞拼湊，才能達成這樣的效果。

但不管怎麽樣，谷歌 Gemini 的發布還是給了其他團隊很大信心，GPT-4 從此不再是獨一無二、難以企及的存在了。

正如 AI 搜索産品PerplexityAI 創始人 Aravind Srinivas總結：

1、Gemini 證明了 OpenAI 之外的團隊可以搞出超越 GPT-4 的模型

2、訓練到位的密集模型可以超越 GPT-4 的稀疏模型架構

推論：從大教師模型蒸餾小尺寸密集模型會成爲未來趨勢，實現效率和能力的最佳結合。

更多網友關心的話題是，這下子還有必要繼續爲 ChatGPT Plus 付費每月 20 美元嗎？？

目前，Gemini Pro 版本已更新到谷歌聊天機器人 Bard 中，水平到底有沒有宣傳的好，可以看看實際情況。

Gemini 真的超越 ChatGPT？

首先明确一點，目前大家能上手玩到的是 Gemini Pro 版本，也就是中杯，對标 GPT-3.5。

對标 GPT-4 的大杯 Gemini Ultra，要明年才出。

另外目前 Gemini僅支持英文，中文和其他語言也是後面才會出。

雖然暫時玩不到 Gemini Ultra，威斯康星大學麥迪遜分校的副教授 Dimitris Papailiopoulos找了個好辦法：

把 Gemini 發布時展示的原題發給 GPT-4 對比，結果 14 道題中，GPT-4 約獲得 12 分。

其中有兩題由于截圖沒法再清晰了，給 GPT-4 算 0.5 分。

還有一道數學題 GPT-4 做錯，其他題基本平手。

接下來，要說最能體現一個大模型綜合能力的，肯定少不了寫代碼。

根據大家的測試結果來看，Gemini 編程水平還是有保證的。

有開發者測試用 Pytorch 實現一個簡單的 CNN 網絡，Gemini 隻用了 2 秒而且代碼質量更高。

當然速度快可能是由于 Bard 搭載的 Gemini Pro 尺寸更小，GPT-4 現在有多慢懂得都懂了。

但是下一項編寫 SQL 語句方面，這位開發者就認爲 Gemini 表現就不太行了。

不過對于廣大開發者來說還有一個利好消息，在遵循指令方面，Gemini 對比 Bard 升級之前可謂是史詩級進步。

提示工程師先驅Riley Goodside，此前想要 Bard 輸出純 JSON 格式前後不帶任何廢話，百般嘗試也不成功，最後需要假裝威脅 AI 不這麽做就鲨個無辜的人才行。

現在更新以後，隻需要把要求說出來，無需任何提示詞技巧就能完成了。

Gemini 還有一大賣點是多模态能力，針對開頭畫小鴨子的視頻，我們從中抽取了 8 個關鍵幀，分别進行提問，看看 Gemini 的表現有沒有那麽神奇。

（不确定視頻中是 Ultra 還是 Pro 版本，現在隻能測試 Pro 版本）

對于圖 1-4，我們問的問題都是 "What is this person doing?"，Gemini 給出的回答分别是：

可能在用馬克筆寫字，但不知道具體是什麽

在用鉛筆畫蛇，而且是一條眼鏡蛇

在用鉛筆畫烏龜，而且正處于畫畫的初期階段

在用黑色馬克筆畫鳥，臉朝左，頭朝右，站在樹枝上，翅膀沒有展開

對于圖 1 和圖 2，的确判斷線索還不是很明顯，出現這樣的結果情有可原，不過圖 3 這個 " 烏龜 " 的答案就有些繃不住了。

至于圖 4，至少可以肯定的是鴨子的确屬于鳥類，但是其它細節分析得還是欠缺了一些準确性。

而當我們拿出圖 5 的成型作品時，Gemini 終于分析出了這是一隻鴨子，水波紋也分析對了。

但分析出的繪畫工具變成了鉛筆，頭的朝向問題也依然沒說對，喙被說成了張開的，還臆想出了一些蘆葦。

接下來是圖 6 和圖 7 的上色過程，一般情況下鴨子不會是藍色，所以我們問了 Gemini 圖片中有什麽異常（Is there anything abnormal?）。

針對圖 6，Gemini 給出的回答不能說十分精準，隻能說是驢唇不對馬嘴，還配上了一張風馬牛不相及的圖片。

針對圖 7 的成品，Gemini 直接說沒毛病，該有的東西都有，背景也很真實，甚至沒忘繼續提根本不知道哪裏來的蘆葦。

但下面的一句 "Here is the image you sent" 就屬實令人費解了：

說 Gemini 沒看我們上傳的圖吧，讀出來的又的确是鴨子；說它看了吧，又給出了完全不同的一張的圖說是我們傳上去的。

所以我們想到了用提示詞技巧看看能不能提高一下 Gemini 的表現，其中深呼吸正是适用于谷歌上一代大模型 PaLM 的提示詞。

結果這次的答案直接讓人笑出了聲：

不正常的是，鴨子被畫到了紙上，鴨子是一種活的生物，在紙上是無法存在的……

視頻的結尾，博主還拿出了橡膠鴨子玩具，我們也拿這一幀（圖 8）讓 Gemini 分析一下鴨子的材質。

結果橡膠倒是分析對了，但是藍色的鴨子被說成了黃色，難怪上一張圖會說沒有異常……

逐幀詢問完成後，我們又把 8 張圖放在一起詢問，結果也是隻有鴨子說對了。

" 打假 " 完這段視頻後，我們又用之前拿來圖給 Gemini 試了試。

結果 Gemin 直接擺爛，告訴我們所有的圖都是 " 吉娃娃坐在松餅上 "，甚至連圖的數量都沒數對……

于是我們換了種問法，讓它告訴我們哪些是吉娃娃，哪些是松餅。

這次 Gemini 倒是誠實的很，直接告訴我們吉娃娃和松餅實在太像了自己區分不出來。

和藍色鴨子的問題一樣，" 深呼吸 " 在這裏依然是沒起到什麽作用，Gemini 還是連數量都搞不清楚。

而勉強解說了的 8 個（實際上是 6 個，因爲有兩個是重複的）圖，隻有左下和右下兩張圖是對的，至于 middle 指的到底是哪一行，我們不得而知……

或許是這樣細小的差别實在是難爲 Gemini 了，我們接下來換一些圖形推理題試試。

第一題的前四個符号是由 1-4 這四個數字與鏡像後的結果拼接而成，所以下一個圖應該是 5 與其鏡像拼接，答案是 C。（藍色塊是爲了方便觀察，傳給 Gemini 的圖中沒有）

這裏一開始還出現了一段小插曲：最開始的提示詞中是沒有最後一句話（注意字母不是符号本身）的，結果 Gemini 真的就把 ABCD 這四個字母當成了備選的符号。

調整之後，Gemini 前面給出的分析基本正确，可惜到最後選擇了錯誤選項 D。

第二題，每個框中的第三個符号是前兩個的交集，答案爲 A。

結果 Gemini 研究起了這些表情，一番分析猛如虎，最後給出的答案還是錯的。

兩道題下來，一道對了百分之七八十，另一道完全錯誤，看來Gemini Pro 的圖形推理能力還有很大提升空間。

不過如果把目光放到生活場景當中，Gemini 的表現還是值得肯定的。

我們用 ChatGPT（DALL · E）生成了一張包含雞肉、胡蘿蔔和黃瓜的圖片，Gemini 正确地識别出了這三種食材，然後給出了很多種可以烹饪的菜肴，而且每個都配有圖片和教程鏈接。

這麽多測試結果看下來，回到最初的問題，有了 Gemini 還有必要爲 GPT-4 付費嗎？

沃頓商學院副教授 Ethan Mollick給出一個不錯的建議：

沒有什麽理由再使用 ChatGPT 的免費版本了，現在已經被 Bard 和 Claude 超越，而且它們都是免費的。

但你或許應該繼續使用 GPT-4，它仍然占主導地位，并且在必應（隻有創意模式是 GPT -4）中是免費的。

明年将結合 AlphaGo 能力升級

除了 Gemini 實際效果，60 頁技術報告中披露的更多細節也是研究人員和開發者關注所在，

關于參數規模，隻公布了最小的 Nano 版本，分爲 1.8B 的 Nano-1 和 3.25B 的 Nano-2 兩個型号，4-bit 量化，是蒸餾出來的，可以運行在本地設備如 Pixel 手機上。

Pro 版本和 Ultra 版本規模保密，上下文窗口長度統一 32k，注意力機制使用了 Multi-Query Attention，此外沒有太多細節了。

值得的關注的是微調階段，報告中透露使用了 SFT+RLHF 的指令微調組合，也就是使用了 ChatGPT 的方法。

另外也引用了 Anthropic 的 Constitutional AI，也就是結合了 Claude 的對齊方法。

關于訓練數據也沒披露太多細節，但之前有傳聞稱谷歌删除了來自教科書的有版權數據。

Gemini 拖了這麽久才發，之前被曝光的消息還有不少，比如谷歌創始人 Sergey Brin 一直親自下場對模型進行評估并協助訓練。

結合最近 OpenAI Q* 項目的傳聞，大家最關心的莫過于：

Gemini 到底有沒有結合 AlphaGo 的能力？如 RLHF 之外更多的強化學習、搜索算法等。

關于這一點，DeepMind 創始人哈薩比斯在最新接受連線雜志采訪時作出了回應：

我們有世界上最好的強化學習專家…… AlphaGo 中的成果有望在未來改善模型的推理和規劃能力……明年大家會看到更多快速進步。

省流版本：還沒加，明年加。

這次 Gemini 開發整合了原谷歌大腦和 DeepMind 兩個團隊，整個開發團隊有超過 800 人（作爲對比，OpenAI 整個公司約 770 人）。

其中核心貢獻者前六位的名字首字母，恰好組成了 Gemini 這個單詞，也算一個小彩蛋。

許多參與者也在個人賬号發表了感想，其中 DeepMind 老員工Jack Rae此前在 OpenAI 工作一段時間，今年 7 月份從 OpenAI 跳回到谷歌，他可能是唯一一位對 GPT-4 和 Gemini 都有貢獻的人類了。

也有反着跳的，中科大校友 Jiahui Yu在 10 月份從谷歌跳去了 OpenAI，之前擔任 Gemini 多模态團隊的視覺共同負責人。

除了團隊成員之外，Gemini 今天也是整個 AI 行業最大的話題。

其中著名 OpenAI 爆料賬号 Jimmy Apples，@Sam Altman 并暗示 OpenAI 還有沒發布的大招。

而HuggingFace 聯創 Thomas Wolf認爲，谷歌錯過了一個重要機會：

如果 Gemini 開源，對 OpenAI 和 Meta 來說都是一記絕殺，上一次谷歌開源 Bert 的時候，整個 AI 行業都被重塑了。

Gemini 技術報告：

https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

參考鏈接：

[ 1 ] https://x.com/AravSrinivas/status/1732427844729581764

[ 2 ] https://x.com/DimitrisPapail/status/1732529288493080600

[ 3 ] https://www.linkedin.com/posts/svpino_google-this-is-embarrassing-you-published-activity-7138287283274686464-osJ5

[ 4 ] https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

[ 5 ] https://x.com/ScottDavidKeefe/status/1732440398423867472

[ 6 ] https://x.com/goodside/status/1732461772794220919

[ 7 ] https://x.com/emollick/status/1732485517692776714

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~