修复抓取预算问题
Posted: Thu Jun 12, 2025 8:02 am
列出页面
列表页。如果您允许用户上传自己的列表或内容,那么随着时间的推移,这可能会产生大量的 URL(例如,像招聘网站或 eBay 这样的网站,可能有很多页面)。
绘制抓取预算问题的解决方案图表,以及它们是否允许抓取、索引和 PageRank。
那么您可以使用哪些工具来解决这些问题并最大限度地利用您的抓取预算?
因此,作为基准,如果我们思考一个典型的URL在Googlebot中是如何运作的,我们会说,是的,它可以被抓取,是的,它可以被索引,是的,它可以传递PageRank。因此,如果我在网站上的某个地方链接到这样的URL,然后Google跟踪该链接并索引这些页面,那么它们可能仍然拥有顶级导航值和全站导航。因此,真正到达这些页面的链接就像一个循环利用的循环。当我们通过许多不同的页面和许多不同的过滤器进行链接时,由于漏洞,肯定会有一些损失。但毕竟,我们正在回收它。不存在PageRank泄漏的黑洞损失。
Robots.txt
现在,站在另一个极端,您可以用于抓取预算的最极端的解决方案是 robots.txt 文件。
所以,如果你在 robots.txt 中屏蔽了一个页面,它就无法被抓 基里巴斯 电报电话列表 取。太好了,问题解决了。其实不然,因为其中存在一些妥协。从技术上讲,被屏蔽的网站和页面可以在 robots.txt 中被索引。有时你会看到一些网站出现,或者带有此元描述的页面无法显示在搜索引擎结果页面 (SERP) 中,因为页面在 robots.txt 中被屏蔽了,或者出现了类似的信息。
所以从技术上讲,它们可能算数,但实际上它们对任何排名都没有影响,至少对任何有效排名都没有影响。所以,从技术上讲,它们不会传递 PageRank。当我们链接到这样的页面时,我们仍然会传递 PageRank。但如果该页面在 robots.txt 中被屏蔽,PageRank 就不会再增加。
所以我们相当于制造了一个漏洞和一个黑洞。所以这是一个相当粗暴的解决方案,尽管它很容易实现。
列表页。如果您允许用户上传自己的列表或内容,那么随着时间的推移,这可能会产生大量的 URL(例如,像招聘网站或 eBay 这样的网站,可能有很多页面)。
绘制抓取预算问题的解决方案图表,以及它们是否允许抓取、索引和 PageRank。
那么您可以使用哪些工具来解决这些问题并最大限度地利用您的抓取预算?
因此,作为基准,如果我们思考一个典型的URL在Googlebot中是如何运作的,我们会说,是的,它可以被抓取,是的,它可以被索引,是的,它可以传递PageRank。因此,如果我在网站上的某个地方链接到这样的URL,然后Google跟踪该链接并索引这些页面,那么它们可能仍然拥有顶级导航值和全站导航。因此,真正到达这些页面的链接就像一个循环利用的循环。当我们通过许多不同的页面和许多不同的过滤器进行链接时,由于漏洞,肯定会有一些损失。但毕竟,我们正在回收它。不存在PageRank泄漏的黑洞损失。
Robots.txt
现在,站在另一个极端,您可以用于抓取预算的最极端的解决方案是 robots.txt 文件。
所以,如果你在 robots.txt 中屏蔽了一个页面,它就无法被抓 基里巴斯 电报电话列表 取。太好了,问题解决了。其实不然,因为其中存在一些妥协。从技术上讲,被屏蔽的网站和页面可以在 robots.txt 中被索引。有时你会看到一些网站出现,或者带有此元描述的页面无法显示在搜索引擎结果页面 (SERP) 中,因为页面在 robots.txt 中被屏蔽了,或者出现了类似的信息。
所以从技术上讲,它们可能算数,但实际上它们对任何排名都没有影响,至少对任何有效排名都没有影响。所以,从技术上讲,它们不会传递 PageRank。当我们链接到这样的页面时,我们仍然会传递 PageRank。但如果该页面在 robots.txt 中被屏蔽,PageRank 就不会再增加。
所以我们相当于制造了一个漏洞和一个黑洞。所以这是一个相当粗暴的解决方案,尽管它很容易实现。