出品|虎嗅科技組
作者|齊健
編輯|王一鵬
頭圖|視覺中國
在大模型熱潮中,一直保持低調的字節跳動,日前也被曝出了 " 套殼 " 的瓜。
當地時間 12 月 15 日,外媒 The Verge 曝出字節跳動正在秘密研發一個被稱爲 " 種子計劃 "(Project Seed)的 AI 大模型項目。據稱該項目在訓練和評估模型等多個研發階段調用了 OpenAI 的應用程序接口(API),并使用 ChatGPT 輸出的數據進行模型訓練。
在 API 調用和對輸出内容的使用方面,OpenAI 的使用協議明确規定了:禁止使用輸出開發競争模型。
在 2023 年 11 月 14 日更新的使用條款中還規定了:
不得嘗試或協助任何人進行逆向工程、反編譯或發現 OpenAI 服務的源代碼或底層組件,包括我們的模型、算法或系統(除非适用法律禁止此限制)。
不得自動或以編程方式提取數據或輸出(定義如下)。
不得表示輸出是人類生成的,但事實并非如此。
OpenAI 的使用條款中對于違規用戶的處理辦法是:在提前通知的情況下,随時終止服務。
OpenAI 服務條款中禁止的事項
而目前,隸屬于字節跳動公司名下的部分 GPT 使用權限均已被 OpenAI 封禁。
OpenAI 發言人 Niko Felix 在一份聲明中表示:" 所有 API 客戶必須遵守我們的使用政策,以确保我們的技術用于正确用途。雖然字節跳動對 OpenAI 的 API 使用量很少,但在進一步調查期間,我們已暫停了他們的帳戶,如果我們發現他們的使用不遵守這些政策,我們将要求他們進行必要的更改或終止他們的帳戶。"
真的 " 套 " 了嗎?
首先可以确定的是,字節跳動肯定是在業務當中使用了 OpenAI 的 API。
The Verge 的報道中提到,字節跳動發言人 Jodi Seth 表示,GPT 生成的數據在 Project Seed 開發的早期就用于注釋模型,并在 2019 年中期被從字節跳動的訓練數據中删除。不過,Jodi Seth 在一份聲明中也表示,在字節的海外市場中的一些服務使用了 OpenAI 的 API。但在國内的 " 豆包 ",使用的是字節自主開發的 " 雲雀 " 模型。
據一些與字節跳動海外業務相關的人士表示,字節跳動的海外業務使用的是 OpenAI 在微軟 Azure 上的雲服務 Azure OpenAI。
調用 OpenAI 的 API,對于公司和個人來說都是很平常的事情。并不能因此就說大模型研發公司調用了 OpenAI 的 API 是抄襲或是套用數據。
不過,The Verge 在報道中提到了字節跳動的一些内部文件可以證明字節跳動正在使用 ChatGPT 輸出的數據進行模型訓練," 有員工在飛書上讨論了如何‘數據脫敏’以掩蓋調用 OpenAI 的 API 進行模型訓練的行爲。"
虎嗅向一些與字節跳動 AI 研發團隊有關的人士,詢問了字節跳動是否使用了 ChatGPT 輸出的數據訓練模型,得到的回複均是 " 不方便評價 "。
一位火山引擎團隊人士向虎嗅透露,字節 AI 研發團隊在模型訓練上投入的算力非常可觀," 不管數據來源如何,在大語言模型訓練方面,AI 團隊确實是在刻苦研發的。"
此外,The Verge 的報道中還提到 "他們(字節)說要确保一切都合法,隻是不想被抓。" 多位工程大模型從業者對虎嗅表示,這種觀點相當片面,甚至有些不懷好意。
"面向公衆開放的 AI 大模型,最重要的就是内容安全問題,不管訓練過程中是否用過 OpenAI 的數據,都不可能直接把這些輸出這些内容。" 一位參與某國内 AI 大模型内容審核工作的人士向虎嗅表示,目前國内 AI 大模型對于數據合規、安全性的考慮相當嚴格,甚至是模型産品研發過程中的首要考量。
有趣的是,虎嗅就訓練數據問題向字節跳動的語言模型産品 " 豆包 " 提問了幾輪。得到的回複均是沒有采用過 OpenAI 的技術或數據。
字節跳動大模型産品 " 豆包 " 的問答截圖
數據 " 套殼 " 很普遍
事實上,在訓練過程中用到 ChatGPT 輸出的内容,雖然有違 OpenAI 的使用條款,但這在 LLM 領域并不是什麽新鮮事。
最常見的此類操作就是模型蒸餾(Model Distillation),這也是深度學習領域的一種常見的訓練方法。通常用于将一個大型、複雜的模型(稱爲 " 教師模型 ")的知識轉移到一個更小、更簡單的模型(稱爲 " 學生模型 ")中。這個過程的目标是讓小模型模仿大模型的行爲,以便它可以在保持較低計算複雜性的同時,接近或達到大模型的性能。
"模型蒸餾的教師模型,也應該來自于自研模型。但今天研發大模型的人普遍急功近利,很多人也就顧不了這麽多了。" 一位 AI 研發工程師告訴虎嗅,業内利用别人的模型進行基礎開發的不在少數,有些公司也會公開承認自己的模型是基于某個開源模型蒸餾而來。
除了字節跳動之外,另一家之名公司,在 OpenAI 強大的内容 " 輸出 " 之下,也爆出了數據 " 套殼 " 的新聞。
12 月 9 日,馬斯克新建的 x.AI 公司推出的 LLM 産品 Grok,被網友質疑直接 " 套殼 " 了 ChatGPT。一位 X 用戶在向 Grok 提問的過程中,得到的回答居然是:" 我無法完成您的請求,因爲它違反了 OpenAI 的用例政策。"
網友發布 X 稱:Grok 說自己不能 " 違反 OpenAI 的用例政策 "
對此,xAI 的工程師 Igor Babuschkin 在這條推文下面解釋說,這是因爲 ChatGPT 的輸出充斥網絡,導緻 Grok 很難不受到 ChatGPT 的影響,而輸出與 OpenAI 或 ChatGPT 相關的信息。他表示:" 這個問題非常罕見,我們已經意識到這一點,并将确保未來的 Grok 版本不會出現類似的問題。Grok 的開發沒有使用任何 OpenAI 代碼。"
X 工程師對 " 套殼 " 問題的回複
由于 Grok 與 ChatGPT 一樣可以鏈接網絡,且它可以直接檢索 X(原 Twitter)上的内容,所以輸出與 ChatGPT 相關的内容對于 Grok 來說,也不是完全不合理。
而對于這種情況,AI 業界也并沒有引起太大的反應。前述研發人員對虎嗅表示,不管是直接還是間接的,大家都不可避免地要把行業第一作爲參考。如今的一些公司,不隻是把ChatGPT 的輸出内容用于訓練,甚至有人把這些内容用在不太合規的商業用途中," 有的短視頻或是虛拟人服務公司,就把使用 GPT-4 輸出的内容做腳本當成自己的賣點呢。"
不過,使用 AI 生成的數據訓練自己的模型對模型的叠代進化真的有好處嗎?
在數據叠代方面,确實曾有人提出過擔憂,認爲:未來 AI 生成内容勢必會充斥網絡,大模型叠代的訓練數據将成爲一條難以再進化的 " 銜尾蛇 "。
這是否就意味着,後來的 AI 大模型就再也難以追趕 ChatGPT 了呢?
對此,一些學者認爲并不會出現這種情況,AI 輸出的數據在叠代過程中,一樣可以促進後來的 AI 提升能力,對 AI 的促進作用甚至不弱于人類輸出的數據,甚至會出現 " 教會徒弟,餓死師傅 " 的情況。
IDEA 研究院高級算法工程師王昊認爲:在大型語言模型上,用自己生成的數據訓練自己并非沒有意義。首先借助這種方式,人類能從根本上解決大模型的數據危機問題。此外,人們不僅用這種方式教會大模型解決各種問題,還開始嘗試以類似的方式使大模型自我反思,自我驗證和自我提升,這是未來能夠讓模型變得更加智能的重要途徑。
字節跳動被懷疑,低調是原罪?
自 ChatGPT 問世以來以後,國内百模大戰熱火朝天,但是字節跳動似乎并沒有深陷其中。
過于低調的大模型研發,也招來了很多外界的 " 揣測 "。
自 3 月以來,字節跳動在 AI 大模型方面正式發布的重大新聞并不多,6 月發布的大模型服務平台火山方舟;8 月宣布自研的大模型 " 雲雀 " 通過了有關部門備案,并開啓了基于雲雀大模型的 AI 對話産品 " 豆包 " 的對外測試。
近期,字節跳動在 AI 方面的大動作似乎隻有 11 月宣布成立的新 AI 部門 Flow,以及這次的套用數據事件了。
對于字節跳動在大語言模型熱潮中,發聲甚少的原因,很多業内人士認爲," 低調 " 才是 C 端業務在大語言模型趨勢下的正确邏輯。
縱觀國内互聯網巨頭,騰訊、字節、美團等專注 C 端業務的部門,在這波大語言模型熱潮中,多數都保持着謹慎的态度。
"LLM 最好的應用場景應該在 C 端,但關注 C 端的公司,多數不會大張旗鼓的研發。" 某 C 端互聯網巨頭的 AI 大模型專家對虎嗅表示,對于互聯網公司來說,B 端業務通常提供更直接、更可預測的收入來源。所以在 " 百模大戰 " 中,B 端市場會更積極地推出産品,宣傳業務。
如字節跳動這樣的 C 端互聯網巨頭,要研發、推廣一款大語言模型應用,勢必要考慮很多問題,其中最重要的三個因素包括:商業模式與收益預期,技術成熟度與用戶體驗,隐私與合規。
首先對于專注 C 端消費者的公司和業務來說,要将大語言模型落地到應用中,勢必需要更長的時間來開發市場、教育用戶,并且盈利模式相當不明确。
在技術成熟度與用戶體驗方面,大語言模型在 2023 年雖然取得了長足的進展,但在理解複雜、多變的消費者需求方面仍有局限。C 端互聯網公司更傾向于在技術成熟度更高、能夠提供一緻且高質量用戶體驗的時候,才大規模發展産品落地。
在隐私和合規性方面,雖然目前國内有關部門已經對公衆開放了多款 AI 大模型應用。但在 C 端市場上,還會涉及到隐私和數據保護問題,這在當下的國内市場亦算是一個重大 " 雷區 "。很多普通用戶都在擔憂:大模型會不會收集我的隐私數據?應用了 AI 之後,大公司對我的 " 監視 " 是不是更精準了?
除此之外,在商業上,國内互聯網公司還會考慮到 " 後發優勢 " 的問題。中國互聯網市場競争相當激烈," 百模大戰 " 尚未結束,如果能夠等待競争對手先出手,觀其效果而後動,或者在市場中尋找差異化 AI 産品進行收購,則更可能在未來的市場競争中占據優勢。