圖片來源 @視覺中國
文 | 元宇宙新聲,編輯|孫浩南
衆所周知,在 AI 大模型領域,OpenAI 研發出 Chat-GPT 這件事就像上學時老師布置了一個特别困難的題目,就在大家都還在整理解題思路或是百思不得其解的時候,班級裏的學霸已經第一個寫完了,于是大部分人則更傾向于與學霸交流思路,抑或是直接抄作業。
近期的種種風波似乎也證實了,許多看似複雜的事物其本質是一樣的。前有馬斯克的 Grok AI 因爲數據集污染被懷疑抄襲甚至是套殼 Chat-GPT ,現有字節跳動涉嫌違反服務條款被 OpenAI 封号。
字節跳動,陷入大模型輿論風波
近日,外媒 The Verge 報道稱,字節跳動利用微軟的 OpenAI API 賬戶生成數據來訓練自己的人工智能模型,這種行爲實際上已經違反了微軟和 OpenAI 的使用條款。在此消息被披露不久,The Verge 進一步稱 OpenAI 已經暫停了字節跳動的賬戶。
那麽字節跳動具體是違反了什麽條款呢 ? 其實在 OpenAI 的服務條款中有一項明确的規定,那就是 OpenAI 提供的模型能力,不允許用來被 " 開發任何與之産品和服務形成競争的 AI 模型 "。
根據 The Verge 的說法,證據是來自字節跳動的一份内部文件——海外版飛書 Lark 的聊天記錄。
這份文件表明,字節跳動在代号爲 " 種子計劃 " ( Project Seed ) 基礎大語言模型項目中,幾乎是在每個開發階段都依賴 OpenAI 的 API 來進行開發,包括訓練和評估模型。
" 種子計劃 " 大約在一年前啓動,目前主要研發兩個産品,一個是在國内已經上線的豆包 ; 另一個是針對商業用戶的聊天機器人平台,目前正在開發中。
參與 " 種子計劃 " 的員工是深知過度依賴 OpenAI API 的後果,于是他們就開始讨論如何通過 " 數據脫敏 " 來粉飾證據。以至于經常會出現員工達到 OpenAI API 的最大訪問上限的情況。
The Verge 根據内部文件表示,字節跳動大約是在幾個月前下達了 " 模型開發的任何階段停止使用 GPT 生成的文本 " 的命令。
不過也正是在這個時候,字節跳動發布了自家大語言模型豆包。豆包 AI 官微介紹,豆包 AI 可以提供聊天機器人、寫作助手以及英語學習助手等功能,它可以回答各種問題并進行對話,幫助人們獲取信息,支持網頁 Web 平台,iOS 以及安卓平台。豆包能提供自然語言處理、知識理解、對話、信息檢索、情感分析、機器學習等多種類型的幫助。
但是,字節跳動繼續以違反 OpenAI 和微軟服務條款的方式使用 API,包括評估豆包背後模型的性能。一位對字節跳動内部情況有第一手了解的人指出," 他們說他們想确保一切都是合法的,但他們實際上隻是不想被抓住把柄 "。
三方接連表态,着急的隻有字節
字節跳動
在 The Verge 發出這篇報道之後,字節跳動發言人 Jodi Seth 做出了如下回應:GPT 生成的數據在 " 種子計劃 " 的早期開發中用于注釋模型,并且在今年年中左右的時候已從字節跳動的訓練數據中删除。字節跳動得到了微軟的授權,可以使用 GPT API。我們在非中國市場利用 GPT 支持我們的産品 ; 但在中國市場,則是使用我們自研的模型來支持豆包。
昨日下午,字節跳動相關負責人再度回應稱,公司在使用 OpenAI 相關服務時,強調要遵守其使用條款。我們也正與 OpenAI 聯系溝通,以澄清外部報道可能引發的誤解。
字節跳動使用 OpenAI 服務相關情況的介紹:
1、今年年初,當技術團隊剛開始進行大模型的初期探索時,有部分工程師将 GPT 的 API 服務應用于較小模型的實驗性項目研究中。該模型僅爲測試,沒有計劃上線,也從未對外使用。在 4 月公司引入 GPT API 調用規範檢查後,這種做法已經停止。
2、早在今年 4 月,字節大模型團隊已經提出了明确的内部要求,不得将 GPT 模型生成的數據添加到字節大模型的訓練數據集,并培訓工程師團隊在使用 GPT 時遵守服務條款。
3、9 月,公司内部又進行了一輪檢查,采取措施進一步保證對 GPT 的 API 調用符合規範要求。例如分批次抽樣模型訓練數據與 GPT 的相似度,避免數據标注人員私自使用 GPT。
4、未來幾天裏,我們會再次全面檢查,以确保嚴格遵守相關服務的使用條款。
OpenAI
OpenAI 發言人尼克・菲利克斯 ( Niko Felix ) 發表聲明,确認字節跳動的賬戶已被暫停。" 所有 API 客戶必須遵守我們的使用政策,以确保我們的技術被用于好的一面。雖然字節跳動很少使用我們的 API,但我們在進一步調查期間已暫停了他們的帳戶。如果我們發現他們的使用不符合公司政策,我們将要求他們做出必要的改變或終止他們的賬戶。" 菲利克斯表示。
微軟
微軟發言人弗蘭克・肖 ( Frank Shaw ) 在一份聲明中表示:"Azure OpenAI 服務等微軟 AI 解決方案屬于我們有限訪問框架的一部分,這意味着所有客戶都必須申請并獲得微軟的批準才能訪問。我們還制定了标準并提供資源,幫助我們的客戶負責任地使用這些技術,并遵守我們的服務條款。我們還制定了發現濫用行爲的流程,并在企業違反我們的行爲準則時停止他們的訪問。"
從此次事件中的三方聲明中可以看出,OpenAI 比較保守,隻是暫停了字節跳動的賬号,并表示會進行調查後再決定是否需要采取進一步措施。微軟則是有一種 " 事不關己高高挂起 " 的态度,仿佛再說 " 我隻是中間人,我們有自己的規定,如果有違反的行爲我們會禁止的 "。字節跳動則顯得更着急一些,畢竟 " 火 " 已經燒在身上了。先是澄清解釋,再是立刻聯系 OpenAI 想要迅速對此次事件 " 滅火 "。
字節跳動的 AI 布局
公開資料顯示,早在 2016 年,字節跳動就成立了 AI 實驗室,聚焦于自然語言處理、機器學習、數據挖掘等方面的研究。抖音、今日頭條等字節跳動旗下産品中也頻頻加入 AIGC ( 生成式人工智能 ) 功能,持續吸引流量。
2023 年,字節跳動在 AI 領域的動作明顯加快。6 月,字節跳動旗下火山引擎發布大模型服務平台 " 火山方舟 ",面向企業提供模型精調、評測、推理等全方位的平台服務。
8 月,字節跳動自研的通用大模型 " 雲雀 " 在首批通過《生成式人工智能服務管理暫行辦法》大模型名單中露出。
8 月 17 日,字節跳動公測基于雲雀大模型開發的 AI 聊天機器人 " 豆包 ",面向 C 端市場發力 AI 應用。
近期,在收縮遊戲和 XR 業務的同時,字節跳動成立了一個新的 AI 部門 Flow。相關招聘信息顯示,Flow 是字節跳動旗下 AI 創新業務團隊,目前已在國内和海外分别上線了 " 豆包 " 和 "Cici" 兩款産品,還有多個 AI 相關創新産品在孵化中。
同時,今年字節跳動向英偉達訂購超過 10 億美元的 GPU,僅它一家的訂單就達到了英偉達去年在中國銷售商用 GPU 收入的總和。除此之外,在人才招聘上,有關 AIGC 新發崗位量 TOP10 的企業中,字節跳動也是位列第一,占所有 AIGC 新發崗位的 3.24%。
種種行爲足見字節對于 AI 和大模型的重視之高,回到此次事件本身,如此重視的字節會爲了 " 彎道超車 " 而冒如此大的風險嗎 ?
元宇宙新聲有話說
ChatGPT 的橫空出世後,字節跟很多國内大廠一樣,在努力跟進 AI 的節奏。但顯然字節要更加落後一點,豆包上線後很多人使用,但效果并沒有達到一流的水準。如果說利用 Chat-GPT 訓練出來的 AI 隻是這種效果的話,似乎不太說的過去,而如果沒有用 Chat-GPT 來訓練豆包的話,那麽達到這種效果也算是預料之中。
在此前馬斯克的 Grok AI 涉嫌抄襲 Chat-GPT 時,人工智能研究員西蒙 · 威利森 ( Simon Willison ) 在接受 Ars Technica 采訪時就表示:" 許多大模型已經在使用 OpenAI API 生成的數據集上進行了微調,或者從 ChatGPT 本身中抓取。"
但顯然這些操作都是在合理範圍内進行的,字節或許也是如此,至于字節是否過于 " 急功近利 " 而選擇越過合理範圍進行使用,想必作爲一家龐大的互聯網公司,應該還不至于進行如此 " 因小失大 " 的抄襲行爲。