刷屏的Gemini“強大多模态能力”視頻，谷歌“造假”了？

周四，谷歌 YouTube 官方賬号發布的一個名爲 " 與 Gemini 親密互動：與多模态 AI 交互 " 的視頻引發了網友圍觀，一天之内觀看次數達到 140 萬次。

這個視頻之所以能吸引這麽多目光，是因爲它展示了谷歌史上最強 Gemini 多模态模型在交互方面令人印象深刻的表現。

在這段時長 6 分 22 秒的視頻中，Gemini 對輸入的語音、圖像等提示做出了靈活、流暢的響應和理解，展現出強大的多模态理解和交互能力。

然而，據科技媒體 TechCrunch 最新報道，有用戶仔細研究該視頻後，發現 Gemini 的驚豔表現幾乎都是 " 僞造 " 的。

視頻中 Gemini 對畫面的描述、對玩具識别和提問的回答等互動都是人爲設置的，視頻跳過了部分提示以及模型的推理過程，給觀衆營造一種 Gemini 智能又敏捷的假象。

Gemini 可能沒有那麽智能

Gemini 在視頻中展示了多種交互技能，比如識别玩具鴨、跟蹤杯子戲法中的球、識别手勢、重排星球順序等。

比如，在第一個演示中，Gemini 識别了一個鴨子素描從一條線到完整畫面的演變過程。當演示者将鴨子素描填滿藍色顔料時，Gemini 指出鴨子通常是棕色、白色或黑色的，不會是藍色的。

然後，當 Gemini 看到一個藍色玩具鴨時，它驚訝地說道：" 這是什麽玩意！" 接下來它回答了關于這個玩具鴨的各種語音提問。

整段視頻中，Gemini 的反應都很快，回答縱享絲滑，但問題在于，它的反應不夠真實。

媒體通過捕捉素材來測試 Gemini 在各種場景下的反應能力，重新制作了一個演示視頻。然後，用視頻素材中的靜态畫面框提示 Gemini，并通過文字輸入進行提示。

結果顯示， Gemini 确實具備視頻中展示的某些能力，但并沒有真正如視頻所示的那樣快速、流暢地完成所有互動任務。

但據 TechCrunch 稱，視頻中展示的交互效果，其實并不是真實的即時交互，而是事先設置好的。

視頻用的是一系列特意準備的文本提示，以及配套的靜态圖片，通過挑選和剪裁這些預設素材，制作成真實交互的效果。

這樣做其實是爲了誤導觀衆，讓人們相信視頻中展示的是 Gemini 真正的即時交互能力。但很可能的是，Gemini 在交互速度、準确性等方面均沒有視頻中展示的那樣強大。

視頻和文檔展示的提示，差别很大

值得注意的是，當 TechCrunch 對比視頻和谷歌發布的文檔演示時，發現兩者的提示存在差異。

比如，在視頻的 2 點 45 分處，一隻手做出了一系列手勢，沒有配合語音提示。Gemini 很快回應道：" 我知道你在做什麽！你在玩石頭、剪刀、布！"

但谷歌的 Gemini 能力文檔一開始就明确指出，該模型不能通過識别單個手勢來推理，提示必須同時展示全部 3 個手勢，并給提示詞 " 這是什麽遊戲 "，隻有這樣它才能識别出 " 石頭、剪刀、布 "。

所以視頻中的表現完全不符合文檔所述的提示限制，無法展示出 Gemini 的真正識别能力。

另外，Gemini 識别星球順序的場景也可能具有欺騙性。

演示者展示了貼有太陽、土星和地球塗鴉的便利貼，詢問 Gemini 行星順序是否正确，Gemini 給出了正确的太陽、地球、土星順序。

但文檔顯示真正的提示是，" 這是正确的順序嗎？思考離太陽的距離并解釋你的推理 "。

這兩種交互感覺上完全不同，視頻演示看起來像智能的及時評估，而在真正的交互中，Gemini 需要暗示性很強的提示。

另外，在追蹤杯子中紙團的演示中，也出現了不同于文檔記錄的提示的情況。

值得注意的是，如果一開始視頻就明确表示 " 這是對我們研究人員測試過的交互的藝術化呈現 "，大家都不會有異議，因爲這類視頻本來就兼具事實和理想色彩。

但是這個視頻叫做 " 與 Gemini 親密互動 "，并标榜是 " 我們最喜歡的交互 "，這實際就是說，視頻中的交互就是真實交互的意思，但實際上并不是。

谷歌甚至沒有說明，視頻中展示的模型是已經面市的 Gemini Pro 版本，還是預計明年發布的 Gemini Ultra。