收集的数据来识别和

Showcase, discuss, and inspire with creative America Data Set.
Post Reply
rochon.a1.119
Posts: 436
Joined: Thu Dec 26, 2024 3:15 am

收集的数据来识别和

Post by rochon.a1.119 »

由于 ghost spam 不会访问网站,因此我们只能通过 google analytics 来对抗它们,而无法通过网络服务器来对抗它们。

这种行为方式的第一个后果是,我们无法从网络服务器中过滤幽灵垃圾邮件(就像其他两种类型的垃圾邮件一样),因为它不会干预整个过程,而只是通过 google analytics 进行干预。

因此,我们需要知道如何通过分析 analytics 过滤这些虚假访问。

过滤不需要的流量(包括幽灵垃圾邮件)的方法
在本节中,我们将重点关注来自爬虫引荐垃圾邮件和幽灵垃圾邮件的不需要的流量,这是迄今为止最有害的。

我们将在这里看到的方法可以分为两大类:

对实际访问网站产生的垃圾邮件(即爬虫引荐垃圾邮件)有影响的文 奥地利 WhatsApp 数据 件:robots.txt 和 .htaccess 文件。
针对没有真正访问网站的垃圾邮件(即幽灵垃圾邮件)采取行动:数据视图中的过滤器和带有过滤器的细分。
这两组攻击的根本区别在于,第一组攻击我们可以对托管服务器本身采取遏制措施,阻止它们访问网站。

而对于第二种情况,托管服务器从来没有此类访问的任何记录,因此只能在 google analytics 内部应用此类措施。

为了用实际例子解释如何使用这些方法,我们假设我们已经检测到我们的网站正在从以下三个来源接收不需要的网络流量,即垃圾邮件:
通过 robots.txt 文件
robots.txt 文件是位于网站根文件夹中的文本文件,为访问网站的爬虫建立了一系列准则和条件。

他们可以从哪些文件夹和文件进行抓取(例如,在搜索引擎中对它们进行索引),哪些抓取工具有“权限”访问该网站。
Post Reply