交錢！StackOverflow：類ChatGPT們用我數據訓練得付費

ChatGPT，遭到了一波反向收費。

而管 OpenAI 要錢的，正是全球最大程序員問答網站StackOverflow。

理由是這樣的：

你們拿我家的數據去訓練 AI 了。

無獨有偶，在 StackOverflow 之前，Reddit近日也發出了類似的信号——計劃開始向訪問其 API 的公司收費。

Reddit 老闆給出的理由更是直白：

我們的數據非常有價值，不想免費提供給科技巨頭們。

不得不說，這波圍繞類 ChatGPT 展開的 " 商戰 " 着實有點意思。

不過圍觀的網友們就不那麽樂觀了：

唯一沒有獲利的……好像就是用戶了。

科技巨頭們要爲訓練數據買單了

我們都知道，訓練一個像諸如 ChatGPT 這樣的 AI，背後定然需要海量的數據。

無論是 OpenAI、谷歌、微軟、Meta 或是其它公司都是如此。

但這些科技巨頭們一般獲取這些數據的方式都是從網上抓取，也因此不會給對應數據背後的公司掏錢。

他們所獲取的數據來源，就包括了 StackOverflow、Reddit 在内的數千個在線 " 資源 "。

然後科技巨頭們就會将這些數據 " 喂 " 給大模型，讓對話 AI 變得更聰明、更智能。

待産品們成熟可以 " 上崗 " 之後，科技巨頭們就會開啓付費模式，例如我們熟知的 ChatGPT Plus、GitHub Copilot 等等。

但在這麽一個過程中，像 StackOverflow 和 Reddit 這樣的網站，就有點慘了。

首先，就是我們剛才提到的，這些 AI 拿着他們家的數據做訓練，變得更強更優秀。

其次，這些 AI 的誕生似乎對于它們來說并沒有太大的益處，反倒可能會變成非常有競争力的對手。

于是乎，Reddit 就率先不幹了，CEO Steve Huffman 直接撂下狠話：

想白嫖，沒門！得交錢。

而後 StackOverflow 的 CEO Prashanth Chandrasekar 也公開贊成 Reddit 的做法。

不僅如此，他還認爲這些大語言模型（LLM）的開發人員還違反了自家網站用戶們的權益。

因爲在 StackOverflow 條款中有這樣的明确規定：

用戶擁有他們在 Stack Overflow 上發布内容的所有權，但所有内容均受知識共享許可的約束，該許可要求以後使用這些數據的任何人都說明其來源。

Chandrasekar 認爲，日後科技巨頭們拿着自家的類 ChatGPT 的産品去出售的時候，開發人員是解釋不清用了 StackOverflow 哪些用戶的問答去訓練的模型：

因此，他們違反了知識共享許可。

據了解，StackOverflow 和 Reddit 目前都沒有對數據收費做明确的公示，而且價格也沒有定下來。

但另一方面，各種大語言模型背後的企業，也正在努力降低開發的成本。

将來若是訓練數據都要收費了……那這部分成本又将會有誰來買單呢？

反正 Reddit CEO 的表态是：

爬取 Reddit 數據産生了價值，卻不将任何價值返還給我們的用戶，這是個問題。

會怎麽收費？

雖然目前 StackOverflow 和 Reddit 都沒有明确訓練數據的價格，但有媒體猜測，他們可能會借鑒馬斯克推特的 " 定價路線 "。

例如在這個月，馬斯克就提高了訪問推特數據的價格—— 42000 美元 /5000 萬條推文。

更戲劇性的是，馬斯克前一陣子還以 "OpenAI 非法使用推特數據訓練 " 爲由，準備起訴 OpenAI。

而不僅是文字領域，在圖片生成領域，因訓練數據而産生的糾紛也是屢見不鮮。

例如 Getty Image 就在此前起訴了 OpenAI 的對手 Stability AI。

理由是涉嫌使用超過 1200 萬張照片且之前沒有尋求過許可。

……

至于像 StackOverflow 和 Reddit 最終将如何定價，還需要等待他們官方的表态。

但值得明确的一點是，随着這一波 AIGC 熱潮的到來，其背後的各種 " 規矩 "，是值得深入探讨、商定了。

參考鏈接：

[ 1 ] https://www.wired.com/story/stack-overflow-will-charge-ai-giants-for-training-data/

[ 2 ] https://qz.com/reddit-ai-bots-training-payment-1850352526

[ 3 ] https://twitter.com/ruchowdh/status/1649168431063736320