谷歌這回,可真是出大糗了。
Bard 處處不及 ChatGPT 也就罷了,如今竟然被曝出,爲了快速訓練這個 ChatGPT 競品,他們直接使用了 ChatGPT 生成的數據。。。
數據來自于一個收集 ChatGPT 對話的公開網站,上面的對話數量超過 11 萬。
The Information 爆料,這種操作在谷歌内部不是沒人反對。BERT 一作就直接向劈柴哥等高管發出警告,并且明确提示:
這種行爲違反了 OpenAI 的服務條款,并且會讓 Bard 的回答和 ChatGPT 非常相似。
此後,這位大佬迅速從谷歌離職,轉投 OpenAI。
ShareGPT 網站的作者,也佐證了這個消息:" 我知道這事兒有一陣子了。"
并且正因爲此,ShareGPT 上周關閉了浏覽他人聊天記錄的探索功能。
這一錘下來,吃瓜網友當場坐不住了,有人直言谷歌這是犯了大忌。
還有人嘲諷,這下谷歌完全成了 OpenAI 的陪襯。
而谷歌這邊,也立馬被炸了出來,緊急否認三連:
Bard 沒有用任何來自 ShareGPT 或者 ChatGPT 的數據訓練。
Bard 自己承認 " 浏覽過 "ShareGPT
但谷歌用 ShareGPT 數據訓練 Bard 這事兒吧,多少是有迹可循。
比如在上周,ShareGPT突然關閉了浏覽他人 ChatGPT 對話的功能。
ShareGPT 本來是一個谷歌插件,能方便人們一鍵分享自己和 ChatGPT 的對話到各種平台。之後開發者又進一步推出了一個探索頁面,可以方便大家互相浏覽有趣的對話,因此也成爲了一個海量 ChatGPT 數據的聚集地。
随着 The Information 的爆料不胫而走,ShareGPT 的開發者也公開喊話:
秘密終究還是藏不住了吧!
再來看谷歌這邊的回應,比較因吹斯聽。
雖然他們否認使用過 ShareGPT 或 ChatGPT 的任何數據。但在 The Verge 追問之前是否使用過 ChatGPT 數據做訓練時,發言人拒絕回答并表示:
很抱歉我能分享的隻有我們昨天的聲明。
有消息人士說,在BERT 一作雅各布 · 德福林(Jacob Devlin)和谷歌高管發出警告後,谷歌确實停止使用 ChatGPT 數據訓練了。
由此 The Verge 猜測,Bard 裏或許已經删掉了之前這部分訓練數據。
而如果把這個問題直接抛給 Bard 本身,它的回答同樣引人深思。
因爲它否認使用過 ChatGPT 的數據。
但承認讀過 ShareGPT 的對話……
反倒是 ChatGPT 這邊的回答很謹慎體面,表示除非 " 谷歌官方或相關研究人員明确承認了 ",否則它沒法作答。
實際上,OpenAI 對于能否使用 ChatGPT 輸出數據做訓練這件事,有明确的條款說明:
競品,不行。
但如果是非商用的,比如,應該可以。
在 Alpaca 發布時明确提到,團隊是通過購買 OpenAI 的 API 來生成數據集。
由此也就不難理解爲啥 BERT 一作雅各布老哥,當初知道谷歌操作後反應如此激烈,甚至直接跑去和劈柴哥發出警告,畢竟這可是明目張膽地違反友商條例。
更何況這麽做對 Bard 也不是沒有壞處,會導緻它生成的答案和 ChatGPT 非常相似……
而在給谷歌 " 吹哨 " 後,雅各布選擇了馬上提桶跑路轉投 OpenAI。1 月份離職,都沒等 Bard 發布。
不過這還沒完,谷歌的操作還在繼續——
因爲他們居然和 DeepMind" 一笑泯恩仇 ",聯手開發新的大模型來應對 ChatGPT 了。
要知道,雖然 DeepMind 從 2014 年就被谷歌收購了,但它一直都保持高度獨立運營,和谷歌的開發團隊時常保持着競争關系。
但在 ChatGPT 熱潮下,谷歌和 DeepMind 如今的局面都頗爲被動。
由此也就看到了這次罕見聯手,DeepMind 和谷歌大腦團隊合作,共同開發一個名爲Gemini(雙子座)的大模型。
據悉,這個模型對标 GPT-4,參數量大約在 1 萬億左右。谷歌大腦負責人 Jeff Dean 領銜技術開發,負責代碼編寫等工作。
網友:暫停大模型研究 6 個月根本不可能
谷歌這一波操作下來,外界也有些目瞪狗呆。
就有網友提出:Gemini 的出現,是不是意味着谷歌已經放棄 Bard 了?
放不放棄不好說,但至少,谷歌内部的 " 賽馬 " 已現端倪。
事實上,Gemini 的消息傳出之前,在 2 月份 ChatGPT 掀起第一波高潮之時,谷歌和 DeepMind 就已有聯手動作:
谷歌旗下專注語言大模型的 " 藍移團隊 "(Blueshift Team)宣布,整體并入 DeepMind。目标就是追趕 ChatGPT 的進度。
此前,谷歌的 5400 億參數大模型 PaLM 背後,就有藍移團隊成員的貢獻。谷歌耗時 2 年發布的大模型基準 BIG-Bench,也有藍移團隊的深度參與。
另外,DeepMind 還手握另一張名爲 "Sparrow" 的牌。
這一聊天機器人在去年 9 月就吸引了外界的關注,有評價認爲它 " 朝創建更安全、偏差更小的機器學習系統邁出了重要一步 "。
但當時,DeepMind 出于對公共安全的顧慮,并未面向公衆發布 Sparrow。
論文的主要作者 Geoffrey Irving 當時解釋說:
我們沒有部署該系統,因爲我們認爲它還存在很多類型的偏見和缺陷。
問題在于,你如何權衡機器與人溝通的優勢和劣勢。我傾向于認爲安全更爲重要……從長遠來看,我認爲這是一種工具。
在 ChatGPT 發布并引起廣泛讨論之後,據英國《獨立報》消息,DeepMind 的 CEO 哈薩比斯(Demis Hassabis)透露,Sparrow 的内測版會在 2023 年年内推出。
種種迹象,讓網友不由感慨:什麽,都是沒譜的事兒。
開弓沒有回頭箭,尤其對于在這一波浪潮中處處落于下風的谷歌而言,顯然沒有停下腳步的理由。
畢竟,用戶是真的在流失。Similarweb 的數據顯示,在過去近一個月時間裏,新必應的頁面訪問量增長了 13.6%,谷歌搜索的訪問量則下跌了 2.8%。
而誰也不想做下一個黑莓。
你覺得呢?
參考鏈接:
[ 1 ] https://www.theverge.com/2023/3/29/23662621/google-bard-chatgpt-sharegpt-training-denies
[ 2 ] https://twitter.com/amir/status/1641219919202361344
[ 3 ] https://twitter.com/steventey/status/1641267979399704576