圖片來源 @視覺中國
文|元宇宙日爆,作者|凱蒂,編輯|文刀
" 現在是訴訟時間。"4 月 20 日,推特被微軟踢出其數字營銷平台後,新掌門人馬斯克立馬發推回擊稱,微軟用推特的數據做 " 非法訓練 "。這一怼,直接揭開了 AI 大模型開發商與數據源的利益之争。
此前,在線社區論壇 Reddit 與程序員社區 Stack Overflow 先後宣布,将向使用平台 API 訓練數據的公司收費;環球音樂集團直接表示,将阻止 AI 從其版權歌曲中抓取歌手的聲音。
在此之前,AI 大模型開發商都在低成本地使用互聯網公開的内容數據訓練自家的大模型,如今,各種科技巨頭們加持的大模型紛紛開始商業化,互聯網内容平台們突然反應過來,不能讓這些巨頭們薅羊毛 " 白嫖 " 數據了。
當推特将 API 收費門檻擺在微軟面前時,AI 大模型訓練要給付的成本就不止芯片算力和研發算法的人才了,現在還要加上 " 爲數據付費 "。
馬斯克直怼微軟" 非法訓練 "
" 他們非法使用推特的數據進行訓練。現在是訴訟時間。" 4 月 20 日," 宇宙頂流 " 馬斯克直接在推特上明示要告微軟。他以推特 CEO 的身份親自下場,以此直怼微軟把推特踢出 Microsoft Digital Marketing Center(微軟數字營銷中心)的做法。
這個 " 中心 " 是幹嘛的呢?它其實是微軟利用大數據和 AI 技術開發的一個廣告和營銷的管理平台,聚合了包括推特、臉書、Ins 等海外所有主流的社交平台,方便企業主們在一個平台上完成廣告和營銷活動的推送,還能管理各種賬号、分析推流數據。你刷微博、微信朋友圈時突然冒出的廣告,就有類似微軟這種工具的貢獻。
微軟這個數字營銷中心能實現這些功能,很重要的一環是接入了這些社交平台的 API,這是企業主推送廣告、分析數據的基礎。
結果,馬斯克收購推特後,直接把推特 API 的企業套餐初始訂閱費用定爲 4.2 萬美元 / 月,折合人民币 28.9 萬元,以這個價格能獲得 2500 萬條推文,一條差不多 1 塊多錢了。如果每月支付 12.5 萬美元,能獲得 1 億條推文,後續還會按照使用量加錢。
推特 API 的新收費标準直接勸退了不少小公司,連财大氣粗的微軟數字營銷中心都直言 " 要價太高 ",于是,直接把推特踢出了管理庫。這意味着,借助微軟這個平台執行廣告和營銷計劃的廣告主們,沒法在推特上搞投放了。
原本這是企業主、分發平台、渠道商之間的廣告業内事,馬斯克跳出來了,直指微軟用推特的數據搞非法訓練。
馬斯克稱微軟用推特數據 " 非法訓練 "
誰都知道,爆火的 ChatGPT 背後有微軟的資本加持。而馬斯克和 GPT 大模型的開發方 OpenAI 不僅淵源頗深,還積怨許久。
2015 年,馬斯克與 Sam Altman 等 6 人共同創立 OpenAI 人工智能實驗室,緻力于建設開源的、研發人工智能的非營利機構,來抗衡當時在人工智能領域大有一家獨大之勢的谷歌。爲此,馬斯克捐了 1 億美元,承諾未來繼續捐 9 億。結果不到 2 年,馬斯克就退出了 OpenAI 董事會,這裏既有燒錢開發大模型短期沒燒出成果的問題,也有馬斯克和 Altman 對 OpenAI 的管理權之争。
馬斯克退出 1 年後,即 2019 年 3 月,OpenAI 成立子公司 OpenLP,将其定位爲 " 有限營利機構 ",重組後的 OpenAI 很快拿到了來自微軟的 10 億美元投資。誰也沒想到又一個 3 年過去後, OpenAI 站上了全球科技舞台的最前沿。
ChatGPT 爆火後,當初爲 OpenAI 掏過錢、站過台的馬斯克頻頻表達怨念。
2 月 17 日,馬斯克發推指稱 OpenAI 從開源、非營利變成了微軟控制的 " 閉源、追求利益最大化 " 的公司;後來還多次在公開場合強調人工智能對人類社會的潛在危害,甚至認爲 " 風險比飛機、汽車、毒品更大 ";3 月 29 日,那封科技大佬聯署簽名 " 暫停 AI 巨型實驗 " 的公開信上,他也第一時間簽名表态。
馬斯克爲人工智能的健康發展操碎了心,看上去,這位将巨型載人飛船送入太空的現實版 " 鋼鐵俠 " 似乎不打算跟風人工智能了。
然而,4 月 17 日,馬斯克在媒體采訪中披露,将推出一款生成式 AI 大模型 TruthGPT。很快就有媒體爆料,馬斯克買了 1 萬個英偉達 A100 芯片。這是 AI 大模型訓練的重要硬件。
撕微軟非法訓練數據,怼 OpenAI 變成逐利公司,無論馬斯克如何批評這兩家公司,這下也難掩他對人工智能的興趣了。左手攔下推特數據低成本外流,右手高價囤芯片,在 AI 大模型賽道上,馬斯克開始跑馬圈地。
多平台 API 拟收費,AI 訓練成本被推高
不過,最近要向 AI 大模型開發商們收取 API 費用的平台不止推特。
4 月 18 日,海外最大的社區論壇 Reddit 宣布,将向使用其 API 做數據訓練的公司收取數據使用費。Reddit 暫未公布具體收費标準,業内推測,Reddit 很可能會按數據數量分等級收費,這也是業内的常規做法。此外,程序員問答網站 Stack Overflow 也計劃向 AI 巨頭收取訓練數據費用。
Reddit 更新數據 API 條款防大公司薅羊毛
要知道,研發 AI 大模型,算法、算力和算據這 " 三算 " 缺一不可。以 OpenAI 訓練 GPT-3.5 爲例,這個模型容納了多達 45TB 的文本語料,這些語料既包括書籍期刊等出版物的内容,也包括社交平台、問答網站、論壇小組等在線數據中的用戶生成内容。而從 OpenAI 的公開信息看,該公司并沒有提及獲取線上數據是否支付過費用。用 " 爬蟲 " 爬、和第三方合作、以及購買都有可能是 OpenAI 獲得數據的方式。
此前,各個生成式大模型似乎都在沒啥限制地使用互聯網上的公開内容,影響大模型性能的要素就集中在算法和算力差異上。從推特、Reddit 等平台明确爲 API 收費後,大模型開發商自在地使用數據的好日子到頭了。
2019 年之前,OpenAI 是非營利機構,如今,ChatGPT 都有 Plus 收費版了,更别提該公司還開通了 API 的付費渠道。當前,OpenAI 的估值接近 300 億美元,研究機構 PitchBook 預測,該公司今年的收入将達到 2 億美元,明年會翻五番。
社交平台們明确 API 收費,劍指大模型開發商,雙方也正式變成了 " 商業對商業 " 的關系,收費與付費實屬正常。這也意味着,AI 大模型成爲科技巨頭們狂卷的賽道後,像 Reddit 這樣的海量内容平台将增加商業來源,數據将成爲重要要素。
以成立于 2008 年的 Reddit 爲例,它是全球互聯網中最有活力的社區之一,目前日活達到 3.3 億,大量的用戶創建了超過 14 萬個活躍社區,帖子總量超 3.6 億。尤其在很多小衆領域,Reddit 論壇貢獻了很多有價值的讨論内容。換句話說,Reddit 提供了英語互聯網中最重要的語料庫。
OpenAI 的 CEO Sam Altman 也表示,公司在積極與内容公司進行合作,并願意 " 爲高質量數據支付高價 "。
盡管 Altman 宣稱 " 目前沒在訓練 GPT-5",但 OpenAI 應該不會停下數據訓練的腳步,因爲 GPT-4 仍有很多需要打磨的地方,比如通識知識的準确性、對人類語言的理解進化等等,這些仍然需要語料數據的持續投入。
放眼全球,研究 AI 大模型的公司還不止 OpenAI 一家,海外有谷歌,國内有百度、華爲、阿裏。可以預見,切入大模型賽道的公司,都将面對數據所有者的收費關卡,訓練成本将水漲船高。另一個值得深思的問題是,Twitter 也好,Reddit 也罷,他們手握數據向大模型開發公司收取價格不菲的費用,那麽,爲這些平台貢獻了海量内容和數據的用戶又得到了什麽?
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App