Perplexity 还陷入了一场混乱,他们是否真的尊重 robots.txt 规则。据说,他们将抓取外包给了第三方,但第三方并没有这样做,当然,如上所述,robots.txt 不是法律,而是普遍尊重的互联网规范。尽管如此,他们的 AWS 合作伙伴和许多科技媒体对此感到有些不满。
无论如何,事不宜迟……
方法论
我的数据基于MozCast语料库,其中包含 10,000 个美国核心术语,这些术语是从 STAT 中的美国郊区位置跟踪的。我查看了桌面和移动端以及排名前 20 位的每个有机排名,从 39,791 个唯一子域上的 142,964 个唯一 URL 中得出 341,553 个排名位置。
然后我检查了每个子域名的 robots.txt 是否允许我抓取它们的主页,给出了 8 个不同的用户代理:
值得注意的是, 4 月文章中建议考虑的策略之一的网站 - 即仅排除某些 瑞士手机号码数据 网站部分。在这里,为简单起见,我坚持只测试主页,因此在考虑仅阻止特定部分的网站时,我会少报阻止百分比。
阻塞率
我们首先来看看这 39,791 个子域名被拦截的百分比。总体而言,拦截百分比较低。以下是一些关键要点:
有趣的是,有些网站屏蔽了 Googlebot,但仍然出现在这些结果中。这是一个关于抓取和索引之间区别的有用教训。
GPTBot 是迄今为止被屏蔽最多的 AI 机器人。可能是因为它是最早被屏蔽且讨论最多的机器人之一。
令人失望的是,CCBot 也相当普遍地被屏蔽。我说令人失望是因为这是Common Crawl,一个主要不是用于训练 AI 模型的公共项目。此外,虽然我们无法确定这些网站何时开始屏蔽 CCBot,但如果是最近开始的,那么这肯定是亡羊补牢——模型不再从 CCBot 获取最新信息。
图表显示了网站阻止人工智能机器人的子域名分布情况
有趣的是,如果我们查看来自屏蔽网站的排名 URL 的百分比,而不是仅查看网站百分比,则此图看起来会大不相同。换句话说,我们现在更倾向于排名较高的网站。