周四,谷歌 YouTube 官方賬号發布的一個名爲 " 與 Gemini 親密互動:與多模态 AI 交互 " 的視頻引發了網友圍觀,一天之内觀看次數達到 140 萬次。
這個視頻之所以能吸引這麽多目光,是因爲它展示了谷歌史上最強 Gemini 多模态模型在交互方面令人印象深刻的表現。
在這段時長 6 分 22 秒的視頻中,Gemini 對輸入的語音、圖像等提示做出了靈活、流暢的響應和理解,展現出強大的多模态理解和交互能力。
然而,據科技媒體 TechCrunch 最新報道,有用戶仔細研究該視頻後,發現 Gemini 的驚豔表現幾乎都是 " 僞造 " 的。
視頻中 Gemini 對畫面的描述、對玩具識别和提問的回答等互動都是人爲設置的,視頻跳過了部分提示以及模型的推理過程,給觀衆營造一種 Gemini 智能又敏捷的假象。
Gemini 可能沒有那麽智能
Gemini 在視頻中展示了多種交互技能,比如識别玩具鴨、跟蹤杯子戲法中的球、識别手勢、重排星球順序等。
比如,在第一個演示中,Gemini 識别了一個鴨子素描從一條線到完整畫面的演變過程。當演示者将鴨子素描填滿藍色顔料時,Gemini 指出鴨子通常是棕色、白色或黑色的,不會是藍色的。
然後,當 Gemini 看到一個藍色玩具鴨時,它驚訝地說道:" 這是什麽玩意!" 接下來它回答了關于這個玩具鴨的各種語音提問。
整段視頻中,Gemini 的反應都很快,回答縱享絲滑,但問題在于,它的反應不夠真實。
媒體通過捕捉素材來測試 Gemini 在各種場景下的反應能力,重新制作了一個演示視頻。然後,用視頻素材中的靜态畫面框提示 Gemini,并通過文字輸入進行提示。
結果顯示, Gemini 确實具備視頻中展示的某些能力,但并沒有真正如視頻所示的那樣快速、流暢地完成所有互動任務。
但據 TechCrunch 稱,視頻中展示的交互效果,其實并不是真實的即時交互,而是事先設置好的。
視頻用的是一系列特意準備的文本提示,以及配套的靜态圖片,通過挑選和剪裁這些預設素材,制作成真實交互的效果。
這樣做其實是爲了誤導觀衆,讓人們相信視頻中展示的是 Gemini 真正的即時交互能力。但很可能的是,Gemini 在交互速度、準确性等方面均沒有視頻中展示的那樣強大。
視頻和文檔展示的提示,差别很大
值得注意的是,當 TechCrunch 對比視頻和谷歌發布的文檔演示時,發現兩者的提示存在差異。
比如,在視頻的 2 點 45 分處,一隻手做出了一系列手勢,沒有配合語音提示。Gemini 很快回應道:" 我知道你在做什麽!你在玩石頭、剪刀、布!"
但谷歌的 Gemini 能力文檔一開始就明确指出,該模型不能通過識别單個手勢來推理,提示必須同時展示全部 3 個手勢,并給提示詞 " 這是什麽遊戲 ",隻有這樣它才能識别出 " 石頭、剪刀、布 "。
所以視頻中的表現完全不符合文檔所述的提示限制,無法展示出 Gemini 的真正識别能力。
另外,Gemini 識别星球順序的場景也可能具有欺騙性。
演示者展示了貼有太陽、土星和地球塗鴉的便利貼,詢問 Gemini 行星順序是否正确,Gemini 給出了正确的太陽、地球、土星順序。
但文檔顯示真正的提示是," 這是正确的順序嗎?思考離太陽的距離并解釋你的推理 "。
這兩種交互感覺上完全不同,視頻演示看起來像智能的及時評估,而在真正的交互中,Gemini 需要暗示性很強的提示。
另外,在追蹤杯子中紙團的演示中,也出現了不同于文檔記錄的提示的情況。
值得注意的是,如果一開始視頻就明确表示 " 這是對我們研究人員測試過的交互的藝術化呈現 ",大家都不會有異議,因爲這類視頻本來就兼具事實和理想色彩。
但是這個視頻叫做 " 與 Gemini 親密互動 ",并标榜是 " 我們最喜歡的交互 ",這實際就是說,視頻中的交互就是真實交互的意思,但實際上并不是。
谷歌甚至沒有說明,視頻中展示的模型是已經面市的 Gemini Pro 版本,還是預計明年發布的 Gemini Ultra。