这种方法可能会漏掉使用我在
Posted: Wed Feb 19, 2025 9:26 am
Perplexity 还陷入了一场混乱,他们是否真的尊重 robots.txt 规则。据说,他们将抓取外包给了第三方,但第三方并没有这样做,当然,如上所述,robots.txt 不是法律,而是普遍尊重的互联网规范。尽管如此,他们的 AWS 合作伙伴和许多科技媒体对此感到有些不满。
无论如何,事不宜迟……
方法论
我的数据基于MozCast语料库,其中包含 10,000 个美国核心术语,这些术语是从 STAT 中的美国郊区位置跟踪的。我查看了桌面和移动端以及排名前 20 位的每个有机排名,从 39,791 个唯一子域上的 142,964 个唯一 URL 中得出 341,553 个排名位置。
然后我检查了每个子域名的 robots.txt 是否允许我抓取它们的主页,给出了 8 个不同的用户代理:
值得注意的是, 4 月文章中建议考虑的策略之一的网站 - 即仅排除某些 瑞士手机号码数据 网站部分。在这里,为简单起见,我坚持只测试主页,因此在考虑仅阻止特定部分的网站时,我会少报阻止百分比。
阻塞率
我们首先来看看这 39,791 个子域名被拦截的百分比。总体而言,拦截百分比较低。以下是一些关键要点:
有趣的是,有些网站屏蔽了 Googlebot,但仍然出现在这些结果中。这是一个关于抓取和索引之间区别的有用教训。
GPTBot 是迄今为止被屏蔽最多的 AI 机器人。可能是因为它是最早被屏蔽且讨论最多的机器人之一。
令人失望的是,CCBot 也相当普遍地被屏蔽。我说令人失望是因为这是Common Crawl,一个主要不是用于训练 AI 模型的公共项目。此外,虽然我们无法确定这些网站何时开始屏蔽 CCBot,但如果是最近开始的,那么这肯定是亡羊补牢——模型不再从 CCBot 获取最新信息。
图表显示了网站阻止人工智能机器人的子域名分布情况
有趣的是,如果我们查看来自屏蔽网站的排名 URL 的百分比,而不是仅查看网站百分比,则此图看起来会大不相同。换句话说,我们现在更倾向于排名较高的网站。
无论如何,事不宜迟……
方法论
我的数据基于MozCast语料库,其中包含 10,000 个美国核心术语,这些术语是从 STAT 中的美国郊区位置跟踪的。我查看了桌面和移动端以及排名前 20 位的每个有机排名,从 39,791 个唯一子域上的 142,964 个唯一 URL 中得出 341,553 个排名位置。
然后我检查了每个子域名的 robots.txt 是否允许我抓取它们的主页,给出了 8 个不同的用户代理:
值得注意的是, 4 月文章中建议考虑的策略之一的网站 - 即仅排除某些 瑞士手机号码数据 网站部分。在这里,为简单起见,我坚持只测试主页,因此在考虑仅阻止特定部分的网站时,我会少报阻止百分比。
阻塞率
我们首先来看看这 39,791 个子域名被拦截的百分比。总体而言,拦截百分比较低。以下是一些关键要点:
有趣的是,有些网站屏蔽了 Googlebot,但仍然出现在这些结果中。这是一个关于抓取和索引之间区别的有用教训。
GPTBot 是迄今为止被屏蔽最多的 AI 机器人。可能是因为它是最早被屏蔽且讨论最多的机器人之一。
令人失望的是,CCBot 也相当普遍地被屏蔽。我说令人失望是因为这是Common Crawl,一个主要不是用于训练 AI 模型的公共项目。此外,虽然我们无法确定这些网站何时开始屏蔽 CCBot,但如果是最近开始的,那么这肯定是亡羊补牢——模型不再从 CCBot 获取最新信息。
图表显示了网站阻止人工智能机器人的子域名分布情况
有趣的是,如果我们查看来自屏蔽网站的排名 URL 的百分比,而不是仅查看网站百分比,则此图看起来会大不相同。换句话说,我们现在更倾向于排名较高的网站。