实施抓取预算策略

Showcase, discuss, and inspire with creative America Data Set.
Post Reply
darafathossain
Posts: 285
Joined: Thu May 22, 2025 6:00 am

实施抓取预算策略

Post by darafathossain »

我不会再链接到它了。但如果有人仍然能以某种方式获取到这个 URL,我们可以用 301 来节省成本,最终效果会很好……我觉得这比 Canonical 和 NoIndex 更好,因为它可以节省抓取预算,因为谷歌在极少数情况下甚至不需要访问这个页面,因为它会直接执行 301 操作。

它会解决我们的索引问题,也会提升 PageRank。当然,这里的代价是用户也无法访问该 URL,所以我们必须接受这一点。

总而言之,我们该如何实际运用这些策略呢?如果你想开展一个抓取预算项目,我推荐你做哪些活动呢?

其中一个不太直观的因素是速度。正如我之前所说,Google 会分配一定的时间或资源来抓取特定网站。因此,如果您的网站速度非常快,服务器响应时间短,并且使用轻量级 HTML,那么 Google 就能在相同的时间内浏览更多页面。

所以这是一种反直觉的好方法。日志分析,这更传统。通常很难确定网站上哪些页面或参数实际上耗尽了你的全部抓取预算。大型网站的日志分析通常会产生意想不到的结果,所以你可能需要考虑一下。然后实际使用一些这样的工具。

对于我们认为用户根本不需要查看的冗余 URL,我们可以将其 301 重定向。对于用户 约旦 电报电话列表 需要查看的变量,我们可以将其标记为规范化或无索引标签。但我们也希望避免预先链接这些变量,以免由于其规范化或无索引变体的衰减而损失部分 PageRank。

正如我之前提到的,Robots.txt 和 nofollow 是极少使用的策略,因为它们会造成 PageRank 死胡同。最后,我从 Ollie HG Mason 不久前的博客文章(我可能会在下面链接)中学到一个更近期或更有趣的技巧:如果你的网站上有一个站点地图,并且只用于显示最新或最近的 URL(也就是最近更改的 URL),那么由于 Googlebot 非常渴望获取新鲜内容,正如我之前所说,它通常会开始抓取该网站。因此,你可以使用这个策略将抓取预算引导到新的 URL 上,这样一来,每个人都能从中受益。

Googlebot 只想看到最新的 URL。您可能也只是希望 Googlebot 看到最新的 URL。因此,如果您的站点地图能够满足这一目的,那么每个人都能从中受益,而且这是一个非常棒且易于实施的技巧。就是这样。希望您觉得这很有用。如果没有,请随时在 Twitter 上告诉我您的建议或遇到的挑战。我想看看其他人是如何解决这个问题的。
想学 Python,却不知从何入手?Brittany 和 Pumpkin 将携手主持第二期节目,带来更多实用技巧,助你轻松入门!

概述 Python 基础知识的白板图像。
单击上面的白板图像即可在新选项卡中打开更大版本!
视频转录
Post Reply