最近一張用 AI 批量做号的微信截圖流傳在各個群裏,有人自爆用 AI 在小紅書做了一個龐大的虛假賬号矩陣,通過售賣賬号進行變現。

這并非個例,你有沒有一種感覺,現在刷手機的時候越來越分不清真實和虛拟了?當你浏覽社交媒體、搜索信息或閱讀文章和觀看視頻時,你真的能分辨出哪些内容來自人類,哪些又是 AI 的産物?更令人不安的是,你如何确定你所看到的 " 事實 " 不是 AI 的幻覺?
AIGC 是一場互聯網革命,不幸的是,它的興起也伴随着内容濫用。大量低質量、AI 生成的關鍵詞堆砌的内容傾瀉到網絡上,充斥在搜索引擎的結果當中,互聯網上很大一部分内容已淪爲垃圾信息。
小紅書上的 " 細糠 " 可能是 AI 生成的,音樂平台則充斥着 AI 生成的歌曲,Spotify 上的 AI 翻唱樂隊,把流行歌曲的翻唱添加到正常歌單當中,與真實藝術家演唱的歌曲一起播放,獲得了數百萬的播放量并獲得版稅。最近,美國北卡羅來納州一名男子被捕,他用 AI 制作了數十萬首歌曲,并通過 AI 機器人刷播放量,獲利超過 1000 萬美元。
連你在亞馬遜上買的電子書可能也是 AI 寫的。一本使用 ChatGPT 撰寫的關于野生蘑菇烹饪的電子書,甚至建議讀者用舌頭去嘗一嘗的方式來識别蘑菇種類。
最悲哀的是,這些垃圾書實際上也賺不了多少錢,賺錢的是教學生制作垃圾電子書的教程,這完全是一場騙局和垃圾的閉環,而受害者是熱愛閱讀和寫作的讀者與作者。
亞馬遜上出現了大量 AI 生成的垃圾書籍内容農場從未如此容易
" 内容農場 " 是指爲了牟取廣告費等商業利益或出于控制輿論、帶風向等特殊目的,快速生産大量網絡文章來吸引流量。讓用戶在尋找有用信息時不得不耗費更多時間和精力。爲了吸引眼球,一些賬号甚至故意發布虛假信息或誇大事實,誘導用戶點擊。
發布 " 西安突發爆炸 " 虛假新聞的賬号所屬機構,最高峰一天能生成 4000 至 7000 篇假新聞,每天收入在 1 萬元以上,而公司實際控制人王某某經營着 5 家這樣的機構,運營賬号達 842 個。
以前的内容農場借助廉價勞動力,批量産出文章,比如此前的山東 " 新媒體村 " 以及北馬其頓共和國的假新聞影響美國大選等案例。現在,内容農場也正式從手工作坊進入了 AI 時代。
AI 工具使得内容生成成本大大降低,單次浏覽的收入即可覆蓋成本。根據 IT 技術博主阮一峰的計算,使用某國産 AI 模型生成一篇文章僅需 0.00138 元,而單次浏覽的廣告收入約爲 0.00145 元,這種模式使得内容農場比以往更容易盈利。
" 内容農場從來沒有這麽容易過,我先買一個熱搜數據庫,然後花費 100 多元,就能生成 10 萬篇文章,最後加入廣告,做好 SEO,網站上線,等着用戶點進來就行了。不難想象,資訊類網站未來大概都是這個模式。真人生産内容,成本太高,無法與 AI 内容抗衡,注定隻能是小衆網站。"
除了内容農場,一些平台也在利用 AI 進行 SEO,把自己打造成爲 " 内容農場 "。
豆包此前爲了在搜索引擎裏權重更高,将用戶和 AI 的聊天頁面生成靜态網頁,然後被搜索引擎抓取,給自己引流。開發者社區稀土掘金也同樣通過 AI 批量生成大量内容被谷歌抓取,這些内容缺乏實質價值,引發用戶廣泛批評。

雖然目前豆包和稀土掘金都已經移除相關内容,但中文雲計算網站和開發者社區仍然是内容農場的重災區。
AI 搜索引擎 Perplexity 通過對搜索結果添加腳注,鏈接到互聯網的實時信息源來确保結果的準确性,PerplexityCEO 也對外聲稱 " 引用來源是我們的通行證 "。
但根據 AI 内容檢測平台 GPTZero 在今年 6 月進行的一項研究,Perplexity 用戶平均搜索三個關鍵詞,就會遇到 AI 生成的内容。像 " 日本京都的文化節 "、" 人工智能對醫療行業的影響 "、" 泰國曼谷必嘗街頭美食 " 以及 " 值得關注的年輕網球選手 " 等搜索,返回的結果中包含了引用 AI 生成材料的答案。
這項研究揭示了 Perplexity 這樣的 AI 搜索産品在提供優質來源方面的一個缺陷,也反映出互聯網正日益充斥着 AI 生成的内容。

關鍵詞 " 日本京都的文化節慶 ",唯一引用來源是一篇完全由 AI 生成的文章
Perplexity 還推出了 Pages 的功能,使用者可以把搜索與生成的内容制作成公開頁面,而且搜尋引擎也能收錄。後續也傳出一些神奇用法,例如假裝詢問 AI 關于自家産品的内容,然後利用 Perplexity Page 幫自己的産品做一個頁面,最後被搜索引擎收錄,達到引流的目的。根據 aHrefs 的數據,Perplexity 每月有 240 萬訪客來自谷歌。
360AI 搜索也曾經透露,在晚上會借助算力資源使用 AI 生成答案,每天産生數百萬的網頁供應給搜索引擎。
從 " 内容社區 " 到 " 内容墳場 "
内容社區也是 AI 入侵的 " 重災區 ",Quora 曾經是社區氛圍良好的問答社區,有評論形容其爲 " 更有條理的 Yahoo Answers,更古典的 Reddit,更主觀的維基百科 "。而如今的 Quora 卻成爲了一個信息垃圾場,充斥着無意義的 AI 生成的内容,以及一大堆答非所問的内容。
一開始一些用戶使用 ChatGPT 生成答案,然後秒成 Quora 的 " 專家 ",後來 Quora 直接在頁面上集成了 ChatGPT 生成的答案,而這些錯誤的答案又傳播到了谷歌的搜索結果中。


" 雞蛋可以被融化,常見的方法是用爐子或微波爐加熱 "
一位 2013 年就開始使用 Quora 的用戶評論道:" 最終,Quora 将充斥着機器的提問、機器的回答,别無其他。"
開發者也在借助 AI SEO 獲取流量,Eightify.app 和 Glarity.app 是兩個 Youtube 視頻總結插件,通過 AI 技術批量生成圖文并茂的文章,在短時間内獲得了巨大的流量增長。Eightify.app 自 2022 年 8 月開始運營,其月訪問量從幾十萬迅速攀升,于 2023 年 1 月達到峰值 600 多萬。緊随其後的 Glarity.app 也在 2023 年 2 月采用類似策略,月訪問量從 1 月份的 10 萬激增至 3 月份的 1200 多萬。

SEO 行業從業者哥飛告訴矽星人,搜索引擎也好,内容平台也好,他們不是要幹掉 AI 生成的内容,而是要幹掉低質量内容。這些 AI 生成内容能通過谷歌算法審核,表明其質量達到了一定水準,但由于流量增長過快,Eightify.app 和 Glarity.app 引起了全球 SEO 從業者的關注。" 如果不幹掉,那麽就可以認爲谷歌默許這樣做,大家就會跟風這樣做。"
谷歌最終采取了人工幹預措施。要求這兩家網站停止批量生成内容的行爲,并删除此前生成的相關内容。最新數據顯示,幹預措施生效後,Eightify.app 的月訪問量已降至 60 萬,而 Glarity.app 更是銳減至 20 多萬。
SEO 污染這樣的事情其實一直存在,以前沒有 AI,也有各種小偷爬蟲、僞原創工具,隻不過随着 AI 的發展,這場 " 貓鼠遊戲 " 似乎對于平台來說越來越難了。
一個有趣的例子是 IsaacJinyu 在知乎的一次 AI 卧底實驗,他通過知乎問答數據反向生成 AI 數據,然後微調 Qwen2-7B,去除文字中的 AI 味。這個實驗從 7 月 5 日開始,到 8 月 3 日整整一個月,沒有任何人發現賬号 AI 的身份。
學術圈也被 AI 攻陷
日益增多的 AI 生成内容其影響遠不止于屏幕,這種潛移默化的侵入正悄然影響學術領域。
進年初,西安交大一篇論文因爲使用 AI 生成的配圖而被撤稿,相關圖片中,大鼠長出了詭異的器官,細胞信号傳導圖像電路闆。

在另一篇論文的一張配圖中,小腿和手臂的骨骼數量出現了明顯的錯誤。

這隻是 AI 滲透學術領域的冰山一角,在谷歌學術上搜索 " 截至我上次知識更新 "(as of my last knowledge update)或 " 我沒有訪問實時數據的權限 "(I don't have access to real time data),會出現大量借助 AI 生成的論文。

學者們在壓力之下需在期刊上發表論文,選擇了使用 AI,而學生在 AI 的幫助下完成作業和論文已經成爲一種常态," 人工代寫 " 論文變成了 " 人工智能 " 代寫。
AI 訓練的惡性循環
AI 模型的準确性在很大程度上取決于其訓練數據的質量。" 垃圾進,垃圾出 " 這一短語起源于計算機科學的早期。尤其對于數據分析和 AI 而言,這一原則強調了一個基本觀念:輸出質量與輸入質量緊密相關。
AI 生成的内容激增,但這些内容并非憑空而來,而是基于大量人類創造數據的訓練。但在這個過程中存在一個潛在的缺陷,随着這些 AI 生成的内容重新流入互聯網,最終又成爲訓練未來 AI 模型的一部分數據。正如用牛喂養牛導緻了瘋牛病一樣,用大量由 AI 創建的數據來訓練 AI 同樣具有破壞性。這是一個自我消耗的過程,導緻輸出質量越來越低。

谷歌在 Google I/O 2024 大會上演示了 AI 簡要概括某人未讀的郵件,随後演示了生成新郵件以供回複的功能。不難推斷,收件人将利用 AI 來閱讀這些郵件,并生成新的 AI 回複,讓其他人也用 AI 閱讀。這類功能普及之後,每個人的收件箱是否會充斥着沒有人真正會去閱讀或撰寫的郵件?
AI 能制作的又何止是郵件?AI 爲無人閱讀的 AI 帖子撰寫無人閱讀的 AI 評論,生成無人聆聽的包含 AI 歌曲的歌單,還能爲無人訪問的網站創作無人觀賞的 AI 圖像。

AI 生成的《Nothing, Forever》在一個無人觀看的 Twitch 直播間 24 小時不間斷地播放着。
AI 出現之前互聯網就充滿垃圾,隻是有了 AI 之後,生産垃圾的效率更高了,制造的垃圾産量龐大,而我們在處理這些垃圾的能力上顯然是不夠的。或許在不久的将來,互聯網上的合成圖像将比真實圖像更多,合成網站将超過真實網站,AI 生成的文本也将多于真實文本:由機器産生的無盡内容,堵塞了一切,浪費每個人的時間。

AI 圖片污染互聯網圖片庫
神話中的銜尾蛇(Ouroboros)吞食自己的尾巴,象征着無節制增長與自我消耗的陷阱,其圓形形态也象征着無限和生命的循環。在現在的故事中,這條蛇代表着 AI 的世界,而它的尾巴則是源源不斷的 AI 生成的内容。這個循環就在我們眼前發生着,也許在這條蛇還沒有完全長大前,我們還有機會救互聯網一把。