【太平洋科技快訊】近日,百度百科已開始屏蔽包括谷歌、必應等在内的多數搜索引擎的抓取權限,此舉旨在防止這些搜索引擎和其他爬蟲未經授權抓取其内容,用于訓練人工智能模型。
根據百度百科的 robots.txt 文件更新顯示,目前隻有百度搜索、搜狗搜索、中國搜索 ( Chinaso ) 、YYSpider 和宜搜搜索 ( EasouSpider ) 等少數搜索引擎被允許抓取其内容。
谷歌搜索、必應搜索、微軟 MSN、UC 浏覽器的 Yisouspider 以及其他非白名單爬蟲均被明确禁止訪問百度百科的數據。盡管 360 搜索沒有在封禁列表中單獨列出,但百度百科的策略是禁止一切非白名單爬蟲抓取,所以 360 搜索和其他搜索引擎也都是被屏蔽的。
盡管百度百科采取了上述措施,但有業内人士指出,這些方法可能隻能防止大部分合法的爬蟲抓取,無法完全阻止那些通過特殊手段繞過限制的小型爬蟲繼續獲取内容,用于 AI 訓練。