America Data Set

Posted: **Wed Feb 19, 2025 9:26 am**

Perplexity 还陷入了一场混乱，他们是否真的尊重 robots.txt 规则。据说，他们将抓取外包给了第三方，但第三方并没有这样做，当然，如上所述，robots.txt 不是法律，而是普遍尊重的互联网规范。尽管如此，他们的 AWS 合作伙伴和许多科技媒体对此感到有些不满。

无论如何，事不宜迟……

方法论
我的数据基于MozCast语料库，其中包含 10,000 个美国核心术语，这些术语是从 STAT 中的美国郊区位置跟踪的。我查看了桌面和移动端以及排名前 20 位的每个有机排名，从 39,791 个唯一子域上的 142,964 个唯一 URL 中得出 341,553 个排名位置。

然后我检查了每个子域名的 robots.txt 是否允许我抓取它们的主页，给出了 8 个不同的用户代理：

值得注意的是， 4 月文章中建议考虑的策略之一的网站 - 即仅排除某些瑞士手机号码数据网站部分。在这里，为简单起见，我坚持只测试主页，因此在考虑仅阻止特定部分的网站时，我会少报阻止百分比。

阻塞率
我们首先来看看这 39,791 个子域名被拦截的百分比。总体而言，拦截百分比较低。以下是一些关键要点：

有趣的是，有些网站屏蔽了 Googlebot，但仍然出现在这些结果中。这是一个关于抓取和索引之间区别的有用教训。

GPTBot 是迄今为止被屏蔽最多的 AI 机器人。可能是因为它是最早被屏蔽且讨论最多的机器人之一。

令人失望的是，CCBot 也相当普遍地被屏蔽。我说令人失望是因为这是Common Crawl，一个主要不是用于训练 AI 模型的公共项目。此外，虽然我们无法确定这些网站何时开始屏蔽 CCBot，但如果是最近开始的，那么这肯定是亡羊补牢——模型不再从 CCBot 获取最新信息。

图表显示了网站阻止人工智能机器人的子域名分布情况
有趣的是，如果我们查看来自屏蔽网站的排名 URL 的百分比，而不是仅查看网站百分比，则此图看起来会大不相同。换句话说，我们现在更倾向于排名较高的网站。

America Data Set

这种方法可能会漏掉使用我在

这种方法可能会漏掉使用我在