出现 500 次正面和 500 次反面的情况是极不可能的,但是大多数时候正面和反面的数目会在 475 到 525 之间。
也就是说,在抛硬币这种程中,如果我们重复多次,我们不会得到正面和反面都50%的准确分布,而是在这个百分比附近的一个小范围内,我们不会认为硬币是被操纵的。
您也许开始明白我的意思了:a/b 测试中控制页面和变体页面之间的访问量分布也是随机的 50/50,因此每个页面在一段时间内都会收到大致相同的访问量。
但是,正如我们在硬币的例子中看到的那样,随机性可能是反复无常的,并会在这种分布中完全随机地引入小的波动。
这不只是指一个版本的页面比另一个版本多收到一些访问量,而是指一个版本额外收 比利时 WhatsApp 数据 到少量合格访问量,从而直接影响目标指标。
对少数访问进行的 a/b 测试永远不会在评估目标指标时给出可靠的结果。
因此,当我们说 a/b 测试持续时间应该“足够长”时,我们的意思是我们需要确保有足够的访问量来抵消那些随机分配一个版本页面比另一个版本更合格的访问量的分裂。
如何分析a/b测试的结果?
如何分析 a/b 测试的结果
但是,仅拥有较高的访问次数还不足以消除随机性的影响并分析测试结果,我们还必须考虑到我们为测试选择的指标发生了多大的变化。
让我们通过一个例子来看一下...
在我们最初的例子中,我们考虑了 10,000 次访问,转化率为 1%。