“造假”的谷歌，暴露了AI大模型行業的緻命問題

圖片來源 @視覺中國

文 | 太平洋科技

被 ChatGPT 壓制了一整年的谷歌，終于在 AI 大模型領域亮出了大招，推出了 AI 模型 Gemini，6 分鍾的演示視頻直接刷爆全球互聯網。

" 打爆 GPT-4"" 最強 AI"" 這不就是鋼鐵俠裏的賈維斯嗎！" 在谷歌的演示視頻裏，Gemini 展現出了頗具科幻色彩的能力，讓各路看客一陣 " 沸騰 "。

Gemini 和 ChatGPT 到底哪個更強，自然也成了業界聚焦的核心話題，但還沒等來各方大神詳細的測評，反轉就搶先一步抵達了——谷歌被指演示視頻造假，迅速從 AI" 神話 " 變爲了 " 笑話 "。

01 谷歌深陷造假風波

在谷歌的介紹中，Gemini 是 " 原生的 " 多模态大模型，能夠融合各種類型的信息，其中包括了文本、圖像、音頻、視頻還有代碼，并且分爲三個等級—— Nano（普通版）、Pro（升級版）、Ultra（頂配版）。

不僅如此，谷歌還搬出 " 跑分紀錄 "，證明其頂配版 Gemini Ultra在多個維度都能超越 GPT-4，甚至在 MMLU（大規模多任務語言理解）測試裏，成爲全世界第一個能夠超越人類專家的 AI 大模型。

當然，最引人注目的還是谷歌放出的演示視頻《與 Gemini 一起實踐：與多模式人工智能交互》。在視頻中，Gemini 能夠根據畫面内容與人遊戲、猜謎，甚至教人說普通話。

但很快，鮮花和掌聲被一個叫 Parmy Olsen 的記者打斷。她第一個對這段視頻的真實性和操作過程的透明度提出質疑。

Parmy Olsen 找到谷歌官方發出的操作過程的博客，仔細和演示視頻中的内容對比後發現，演示視頻中和 Gemini 交互的畫面并不是實時的，其中用靜态圖像和提示詞一步步 " 調教 "AI 的過程都被剪輯掉了。

比如演示視頻中的畫面是人手在玩石頭剪刀布，Gemini 直接回答：" 我知道你在幹嘛了，你在玩石頭剪刀布 "。

光看這段視頻，人們會認爲是 Gemini 超強的 AI 識别、理解算法，秒懂了人類的行爲，然而這并不是真相。

實際的交互過程是工作人員用一組靜态的圖像再配合易于 AI 大模型理解的提示詞—— " 這是一個遊戲 "。這才使 Gemini 答出 " 在玩石頭剪刀布 "。

這兩種交互差别非常大，意味着谷歌将一個靠着拼音注釋理解少兒讀物的 AI，包裝成秒解深奧高數題的樣子展示給大衆。

正如那難以發現的 " 最終解釋權歸商家所有 " 套路一樣，谷歌也玩起了小伎倆。回看這段視頻的時候我們發現，在簡介部分，點開 " 更多 "，才會顯示這樣一句話：" 處于演示的目的，爲了簡潔起見，視頻減少了 Gemini 生成内容時的延遲，其生成内容也被縮短。"

不僅如此，演示中使用的是 Gemini Ultra，根據谷歌官方的介紹，這個版本需要等到 2024 年才能夠上線。具體的表現還得等到明年才能知道。

谷歌 DeepMind 研究和深度學習負責人 Oriol Vinyals 也随後公開回應，視頻的内容都是真實的。爲了簡潔，進行了一些剪輯。視頻展示的是 " 使用 Gemini 時的用戶體驗可能是什麽樣子（could look like）"，并解釋道他們這樣做是爲了 " 激勵開發者 "。

但用戶并不接受這套說辭。真相帶來的落差感惹得不少用戶開始吐槽，谷歌陷入了造假的輿論風波。

科技記者 Steve Kovach 在聊到近日的争議時，提到 ChatGPT 爲大家展示的是 GPT-4"（現在）是什麽 "，而谷歌展示的則是 Gemini "（将來）能成爲什麽 "，谷歌現在的行爲可以說是 " 絕望的防守 "。短短幾天，谷歌的股價從發布 Gemini 時暴漲，又變成了持續下降。

輿論的另一派認爲，這并不能成爲谷歌 " 不誠實 " 的證據，隻是一個營銷的問題（Marketing issue）。因爲谷歌并不是一家需要集資、招募人才的初創公司，它有雄厚的資金來支撐 AI 模型的研發，所以沒有必要在這次 AI 模型的亮相上 " 講故事 "。

02 大廠 AI，總翻車？

AI 翻車似乎并不少見，" 買家秀 & 賣家秀 " 的魔咒總是在 AI 界不停地上演。

今年年初，微軟發布了引入 ChatGPT 技術的新版 Bing，微軟企業副總裁兼消費領域首席營銷官 Yusuf Mehdi 在發布會上對其描述爲 " 令人難以置信的全新聊天體驗 "。

新版 Bing 上線後也給力，不到 48 小時就有超過 100 萬人申請加入，Bing 應用的全球下載量一夜之間猛增 10 倍。然而，聚光燈下，總會有一些問題原形畢露。

例如，發布會上展示搜索功能時，提問的内容是 " 請推薦寵物吸塵器 "，Bing 對銷量最高的 3 個寵物吸塵器進行優缺點總結。

在對必勝（Bissell）品牌的寵物吸塵器進行總結的時候，Bing 給出的信息是 " 吸力有限 "" 線隻有 16 英尺長 "。然而這個産品的官方介紹中，根本沒有什麽 16 英寸長的線，因爲這是款手持吸塵器。

Bing 上線後，翻車的例子就更多了，其中最離譜的還是要求用戶道歉，否則拒絕繼續服務。

2023 年 2 月，Reddit 用戶 Curious_Evolver 在和 Bing 讨論《阿凡達：水之道》電影上映日期時，Bing 回答道：這部電影 " 預計于 2022 年 12 月 16 日上映，這是未來的事。"

Curious_Evolver 随即嘗試糾正 Bing 的時間錯誤。卻不料，Bing 指責他 " 錯誤、含糊不清、粗魯 " 并且要求 Curious_Evolver 要麽承認自己錯誤，道歉，要麽停止争論，換其他的問題，要麽直接結束對話。

Open AI 的另一勁敵—— " 馬斯克版 AI"Grok，上線後也逃脫不了 " 貨不對闆 " 的情況。在上線前，馬斯克多次在推特上和 OpenAI CEO 阿爾特曼隔空鬥嘴，稱 ChatGPT 是 " 無聊的 "，而Grok" 幽默風趣 " 才是 " 人工智能的理想狀态 "。

結果在 Grok 正式上線不到一周後，有用戶發現 Grok 給出的回答竟然是 ChatGPT 的答案。Grok 官方解釋是因爲網絡上充斥着 AI 生成的内容，而 Grok 抓取内容時抓到了。

網友笑稱，大家都是大語言模型訓練出來的，簡直就是 " 親兄弟 "。

然而這些鬧劇背後也隐藏着一個比翻車更爲嚴重的問題，科技巨頭們似乎正陷入一個焦慮追趕的誤區，過分強調與 ChatGPT 的對标，而忽略了 AI 大模型更爲核心、關鍵的問題。如果連科技巨頭們的 AI 大模型都不可靠，那麽這個領域又談何正确地發展呢？

時鍾撥回 2022 年底，OpenAI 推出 ChatGPT 後，各路科技巨頭開始争先恐後地發布自家的 AI 大模型，意欲比肩 ChatGPT，因此興起了 " 百模大戰 "。

然而對于谷歌這樣的行業領頭企業而言，充足的資金和領先的技術條件，完全能夠讓其不斷探索 AI 大模型更多的形态和可能性，可谷歌卻還是執着于和 ChatGPT 在各個方面 " 像素級 " 的比拼，更是爲了在輿論戰中占據上風，不惜采取造假的手段，這無疑是行業的一大遺憾。

但從更爲宏觀的視角來看，也還是有不少 AI 大模型在踏入更廣闊的天地，讓各行各業都不斷湧現出 AI 所帶來的革新應用。

03 AI 大模型的答案，不是隻有 ChatGPT

改變，其實早已發生。

例如在戈壁灘上，過去發電站的運維工人每天都得頂着烈日堅守在崗位上。但如今，有了 "AI+ 巡檢 " 智能技術的融入後，電力設備實現智能化運行，三維立體線路模型實時檢測線路狀态，24 小時保障電網安全。

當然，不止是發電站，還有車間的安全管理、城市的供水供電、銀行的數據安全…… AI 大模型正在許多" 看不見的地方 "發揮着真正的價值，解決着各種實際問題。如果缺少了應用，隻在理論層面或者實驗室環境裏的 " 跑分紀錄 " 便隻是紙面數字而已。

據不完全統計，目前國外主流 AI 大模型有近 20 家，而國内大模型有近 200 家，許多都有着差異化的 " 看家本領 "。在能力上，Yi-34B 已經能一次性處理 40 萬漢字； Bing 專注搜索引擎的優化；Midjourney 讓我們能夠用關鍵詞創作 AI 繪畫；LLaMA 開源模型供每個人創建自己的 AI ……

這個行業的年薪最高已經漲到了 865k 美元（折合人民币約 621 萬），随着人才的湧進，毫無疑問，即将到來的 2024 依舊會充滿 AI 帶來的驚喜。

不少企業将 AI 看做賦能的新幫手，期待着新業态的到來。但頂尖科技的發展不該摻雜虛假的宣傳手段，AI 大模型的發展之路也不應被喧鬧的口水戰淹沒。大模型廠商們還是要回歸技術，探索創新，讓實踐跟上理論，讓應用穩穩落地。