研究：近一半熱門新聞網站屏蔽了 OpenAI 爬蟲

IT 之家 2 月 27 日消息，一項由路 * 透社研究所進行的研究表明，截至 2023 年底，全球 10 個國家的熱門新聞網站中，近一半 ( 48% ) 屏蔽了 OpenAI 的爬蟲（Crawler），而近四分之一 ( 24% ) 屏蔽了谷歌的 AI 爬蟲。

圖源 Pexels

據 IT 之家了解，該研究所分析了包括紐約 * 時報、BuzzFeed 新聞、華爾街 * 日報、華盛頓郵報、CNN 和 NPR 在内的 15 家覆蓋面最廣的網絡新聞來源的 robots.txt 文件。這些新聞機構來自德國、印度、西班牙、英國和美國等國家，涵蓋傳統印刷媒體、電視廣播公司和數字原生媒體等三種類型。

研究發現，截至 2023 年底，超過一半 ( 57% ) 的傳統印刷媒體網站，例如《紐約 * 時報》，屏蔽了 OpenAI 的爬蟲，相比之下，電視和廣播公司爲 48%，數字原生媒體爲 31%。同樣，32% 的印刷媒體網站屏蔽了谷歌的爬蟲，而廣播公司和數字原生媒體的比例分别爲 19% 和 17%。

與此同時，康奈爾大學最近的一項研究發現，當新型人工智能模型僅使用先前模型而非人類輸入的數據進行訓練時，它們往往會陷入 " 模型崩潰 " 或退化，導緻生成内容出現更多錯誤和誤導信息。

網站爬蟲被用于多種目的。例如，谷歌的 Googlebot 會抓取發布商網站，将其收錄到搜索結果中。而 OpenAI 的爬蟲 GPTBot 則會在互聯網上收集數據，用于訓練其大型語言模型，例如 ChatGPT。這使人工智能工具能夠生成準确、實時的内容，而新聞發布商尤其擅長提供此類内容：大型語言模型對優質出版商内容的重視程度是其他來源内容的 5 到 100 倍。

該研究還指出，北半球國家的新聞機構比南半球國家更傾向于屏蔽人工智能爬蟲。例如，在美國，79% 的熱門在線新聞網站屏蔽了 OpenAI，而在墨西哥和波蘭，這一比例僅爲 20%。與此同時，德國 60% 的新聞網站屏蔽了谷歌的爬蟲，而在波蘭和西班牙，這一比例僅爲 7%。

研究發現，幾乎所有屏蔽谷歌爬蟲的網站也屏蔽了 OpenAI ( 97% ) 。雖然該研究沒有提供确切解釋，但這可能表明 OpenAI 比谷歌更早發布爬蟲有關。

值得注意的是，在大多數國家，一些發布商在爬蟲剛發布時就立即屏蔽了它們。OpenAI 于去年 8 月初啓動了其人工智能爬蟲，谷歌随後于 9 月份效仿。研究還表明，一旦做出屏蔽決定後，沒有一家網站撤銷對 OpenAI 或谷歌人工智能爬蟲的屏蔽。