下载我们的免费电子书43 A / B检测案例研究,从世界领先的公司寻找考试创意和灵感。 现在下载

优化博客

构建您的实验计划的提示和技巧



优化统计引擎古典统计技术,如T检验,是优化行业的基岩,帮助公司制定数据驱动的决策。由于在线实验已爆炸,现在可以清楚地清楚,这些传统的统计方法不适合数字数据:将古典统计数据应用于A / B测试可能会导致超出大多数实验者的错误率。

两个都 行业学术的 专家转向教育作为解决方案。不要偷看!使用样本大小计算器!避免测试过多的目标和变化!

但我们得出结论是时候了 统计数据,不是客户,改变。告别古典T检验。现在是统计数据,统计数据毫不费力地使用,并与企业实际运作的方式合作。

我们与斯坦福统计人员团队合作,我们开发了统计引擎,是A / B测试的新统计框架。我们很高兴宣布从2015年1月21日开始,它为所有优化客户提供了结果。

优化统计数据统计引擎

这个博客帖子很长,因为我们希望完全透明地了解为什么我们正在进行这些变化,实际上的变化是什么,以及这意味着大的A / B测试。坚持我们到最后,你会学习:

  • 为什么我们制作统计引擎: 互联网可以随时评估实验结果,并以许多目标和变体运行测试。与古典统计数据配对时,这些直观的行动可以增加错误地宣布赢得胜利或减少变化超过5倍的可能性。
  • 怎么运行的: 我们将连续测试和假发现速率控制组合以提供有效的结果,无论样本大小如何,匹配我们向错误业务关注的错误率。
  • 为什么它更好: 统计引擎可以减少错误地宣布在30%到5%的不正确或失去变化的可能性而不会牺牲速度。

想跳到统计发动机背后的数学吗? 阅读我们的技术文章.

为什么我们做了一个新的统计引擎

传统的统计数据是不行性的,容易滥用,并在桌子上留下金钱。

要获取A / B测试的有效结果,请使用古典统计数据,仔细的实验​​者遵循严格的指南:提前设置最小可检测的效果和样本大小,不要窥视结果,并不会测试太多目标发生变化。

这些指南可能是麻烦的,如果你不仔细跟踪他们,你可以在测试中引入错误。这些指南的问题是我们向统计引擎发表的这些指导方针:

  • 预先致力于可检测的效果和样本尺寸是效率低下而不是直观的。
  • 在命中次数之前偷看结果可以将错误引入结果,并且您可以对虚假获奖者采取行动。
  • 测试过多的目标和变体,由于虚假发现,由于错误发现 - 一个错误率可能远远大于误报率。

让我们打破这些。

致力于样本大小和可检测的效果可能会减慢您的速度。

在运行测试之前设置示例大小有助于避免使用传统统计方法进行错误,以设置样本大小,您还必须猜测最小可检测效果(MDE)或预期 兑换率 升降机,您希望从您的测试中看到。猜测错误可能对您的测试速度产生很大的后果。

设置小效果,您必须等待大型样本大小,以了解您的结果是否显着。设置更大的效果,您的风险丢失了较小的改进。不仅是效率低下,它也不是现实的。大多数人运行测试,因为他们不知道可能发生了什么,并提前犯下假设的升力只是没有造成很多意义。

偷看你的结果会增加你的错误率。

当数据实时流入您的实验时,不断检查您的结果是诱人的。您希望尽快实施赢家,以便尽早停止不确定或丢失测试,以便继续进行更多假设。

统计学家称这种持续的偷看“连续监控”,它会增加机会,当你实际存在的情况下,你会找到一个获胜的结果(当然,当你早期停止测试时,持续监测只是有问题,但你得到了这一点。)寻找一个无人物的赢家被称为假阳性,或者I型错误。

任何测试 统计学意义 你运行有一些错误。以95%的统计学意义运行测试(换句话说,具有alpha值的T检验,而且为0.05)意味着您接受5%的几率,如果这是一个 A / A测试 在变型之间没有实际差异,测试将显示出显着的结果。

为了说明如何持续的持续监测,我们模拟了数百万的A / A测试,并评估了在不同类型的连续监测策略下发出错误的可能性。我们发现即使是保守的政策也可以从5%到超过25%的目标增加错误率。

在我们的调查中,超过57%的模拟A / A测试在他们的课程期间至少宣布一次胜利者或失败者,即使只是简要介绍。换句话说,如果您一直在观看这些测试,您可能会想知道为什么您的A / A测试结果称为获胜者。即使您不照顾每个访问者,错误率的增加仍然有意义。如果您看每500名游客,就会增加虚假声明的可能性增加到26%,同时查找每1000名访客会增加20%的机会。

AA-Test.

这个图表的统计显着性水平的一个/ a / a随着时间的推移测试,在实验者已经看到了一个重要的结果,她一直在不断监测测试。

即使你意识到这个问题,也是合理的“fixes”仍然导致高误差率。例如,假设你不’T信任您的A / B测试的重要结果。与许多优化的用户一样,您可以在测试已经运行时使用示例大小计算器以确定您的测试是否足够长。使用计算器调整样本大小,因为测试运行是所谓的“hoc计算”,而虽然它减轻了一些持续的监测风险,但它仍然导致徘徊在25%左右的错误率。

到目前为止,保护自己免受这些错误的唯一方法是在开始测试之前使用样本大小计算器,然后等到您的测试达到样本大小,然后根据结果做出决策。

好消息是,实际上是一个非常简单而优雅的统计解决方案,让您看到始终有效的结果,任何时候窥视,都不需要提前猜测最低可检测的效果。它被称为连续测试,我们稍后会更详细地讨论。

测试许多目标和变化导致比您想象的更多错误。

使用传统统计数据的另一个陷阱涉及一次测试许多目标和变化(“多重比较”或“多重测试问题。“)发生这种情况是因为传统的统计数据通过控制错误阳性率来控制错误。然而,这个错误,你在意义阈值中设置的那个错误,与制作不正确的业务决策的可能性不符。

您真正想要控制的错误率为多个测试问题是错误的发现率。在下面的例子中,我们展示了如何控制10%的假阳性率(90%的统计显着性)可能导致50%的机会由于虚假发现而产生不正确的业务决策。

考虑测试您的产品或网站的5个变体,每个都有2个目标作为成功指标。其中一个变化优于基线,并正确宣布了胜利者。只有随机的机会,我们希望看到一个更多的变化,错误地宣布了胜利者(剩下的9个剩余目标变化组合的10%)。我们现在有2种宣布获奖者的变体。

尽管我们控制了10%的假阳性率(1误),但我们的虚假成果的比例更高(50%)比例,大大增加了做出错误决定的机会。

在这个实验中,测试了10个射门变异组合中的两个赢家。这些获奖者中只有一个实际上与基线不同,而另一个是误报。

在这个实验中,测试了10个射门变异组合中的两个赢家。这些获奖者中只有一个实际上与基线不同,而另一个是误报。

控制虚假阳性率是危险的,因为实验者在不知不觉中因测试许多目标和变化而不知不觉。如果你不小心,你会采取比你意识到的更实际的风险。为了避免传统的A / B测试中的这个问题,必须始终牢记正在运行的实验数量。 10个测试的一个结论结果不同于2个测试中的一个。

幸运的是,有一个原则性的方法来使您的实验的错误率匹配您认为您所在的错误率。统计引擎通过控制已知为虚假发现的错误来完成此操作。您在具有统计引擎的重要性阈值中设置的错误率将反映出不正确的业务决策的真实机会。

统计发动机如何运作

统计发动机结合了创新的统计方法,以更快地为您提供值得信赖的数据。

在过去的四年里,我们已经听到了我们的客户了解到上述问题,我们知道不得更好地解决它们而不是示例规模计算器和更多的教育文章。

我们与斯坦福统计人员合作,为A / B测试开发新的统计框架,这是强大,准确的,最重要的,毫不费力的。这种新的统计引擎由两种方法组成:顺序测试和虚假发现速率控制。

顺序测试:一旦看到胜利者,就会做出决策。

与固定的地平线测试相比,这假设您只会在一个时间点评估您的实验数据,请在SET样本大小时,顺序测试旨在根据收集时评估实验数据。可以随时停止顺序测试,并使用有效的结果。

实验者很少有固定的样本大小可用,其目标通常可以尽快获得可靠的推理。统计发动机通过执行顺序测试的实施方式来满足这些目标,该目标计算平均似然比 - 变化与基线不同的相对可能性 - 每次新的访问者都会触发事件。测试的P值现在代表了测试将达到您选择的意义阈值的可能性。这是一个传统p值的模拟,适用于您样本大小为动态的世界。这被称为电源的测试,它比传统T检验更好,以获得A / B测试仪的目标。

顺序测试 - 图形

这意味着您可以立即获得可靠,有效的推论,而无需提前设置最小可检测效果或等待固定的样本大小。

虚假发现率控制:测试许多目标和有保证准确性的变化。

报告的错误发现率为10%意味着“最多10%的获奖者和失败者之间的变异与基线之间没有区别,”这正是制造业务决策不正确的机会。

使用统计引擎,现在优化地报告具有低假发现率的获奖者和输家,而不是低误报率。当您添加目标和对实验的变化时,优化将更好地纠正错误发现,并在呼叫获胜者或失败者方面变得更加保守。虽然总体上报告了更少的获奖者和失败者(我们发现我们的历史数据库中的较少约为20%),但实验者可以通过全面了解所涉及的风险。

当结合顺序测试时,错误发现速率控制可以准确查看您的错误机会,您可以随时查看测试结果。该控件为您提供了对造成不正确决定的风险的透明评估。

这意味着您可以根据需要测试尽可能多的目标和变体,以保证准确性。

*通过优化客户在历史A / B检验的大型代表性样本中,我们发现,对于相同水平的假阳性率,伪发现率的变化大约有20%的变化。

怎么样更好

优化的统计声引擎在不牺牲速度的情况下减少错误。

我们重新运行48,000 *统计发动机的历史实验,结果清楚:统计发动机提供更准确和可操作的结果而不会牺牲速度。

对你的赢家和输家有更多的信心。

固定地平线统计数据在36%的测试中宣布获胜者或失败者(当测试停止时)在同一数据集中,统计引擎在22%的测试中宣布获奖者或输家。

统计发动机揭示了比传统统计数据更少的结论性测试结果减少了39%。虽然这个数字可能是令人担忧的,(起初它也惊慌失措!)我们发现许多这些丢弃的实验可能太早停止了。

要实现此结果,我们使用类似的方法来对客户操作样本大小计算器来确定测试是否有电源(如果在它启动后,您将检测到效果的概率) - HOC电源计算。运行支持的测试表明,数据中没有足够的信息来强烈区分误报和真实的阳性。使用80%作为我们的功率标准,大多数(80%)的实验,统计发动机不再被称为结论的实验是受到的,而统计发动机保存的大多数(77%)的实验是动力的。

您可以信任的稳定建议。

固定地平线统计数据在44%的历史实验中改变了冠军或失败者的宣言。统计引擎在6%的测试中改变了声明。

通过固定的地平线统计,您可以在一天内看到胜利者,并将其不确定结果下一步。唯一有效的声明是您预先确定的样本大小的声明。使用统计引擎,结果始终有效,而不太可能改变结论结果。

凭借统计发动机,虚假阳性率下降>20% to <5%.

当我们讨论偷看的危险时,我们回忆起我们的A / A测试模拟(每次测试到5000名访客)。在这些模拟中,我们在95%的意义上进行了测试,发现:

  • 如果您在每次新访客在实验后查看结果,则会有57%的几率宣布赢家或失败者。
  • 如果您每次参观每次500名游客,有26%的机会发生错误声明。
  • 如果您每年都有1000名游客,有20%的机会发生错误声明。
  • 随着顺序测试(照顾每个访问者),将相同的错误编号下降到3%。

如果我们将这些模拟更高的样本大小(例如,10,000甚至100,000名访客),无论您查看结果的频率如何,都会增加与传统统计数据的虚假声明的可能性(容易超过70%)。 通过顺序测试,此错误率也增加,但上限为5%。

没有抓住:准确和可操作的结果不需要牺牲速度。

所以阅读这一点,你可能会问:抓住什么是什么?没有一个。

这就是为什么选择适当的样本大小意味着提前挑选最小可检测效果。如前所述,这是一项艰巨的任务。如果每次实验(在您运行之前),则您将MDE设置为5%以内 实际的 升降实验,顺序试验平均速度平均较慢。

然而,实际上,从业者选择一个旨在低于观察到的升降机的MDE。它反映了他们愿意进行实验的最长。使用统计引擎,当真正的升降机大于MDE时,您将能够更快地调用您的测试。

我们发现,如果您的A / B测试的电梯最终高于MDE的5个百分点(相对),统计引擎将像固定的地平线统计一样快速运行。一旦改善超过7.5个百分点的MDE,统计引擎更快地达到75%。对于更大的实验(>50,000名游客),收益甚至更高,统计发动机可以拨打胜利者或失败者快速拨打2.5倍。

在合理的时间内进行测试的能力是将顺序测试应用于A / B测试和优化的最困难的任务之一。我们的大型历史实验数据库使我们能够从先前信息调整统计发动机。通过利用我们广泛的实验数据库,优化可以提供连续测试和FDR控制的理论优势,而不会施加实用成本。

*有关数据的说明:我们测试的数据集有一家有10,000名游客中位数的实验。具有较低人数的检验在固定的地平线测试和统计引擎中具有较少的声明,更改了相似数量的更改声明,但我们更快地显示连续测试的速度收益。

这对每次测试运行的手段是什么意思

让我们澄清一件事:传统统计数据按预期的价格进行控制错误 妥善使用时。这意味着,如果您已经使用示例大小计算器并粘贴到其建议,您可能不需要担心过去测试您的测试。同样,如果您倾向于仅基于主要转换指标进行业务决策,则减少了虚假发现和假阳性率之间的差异。对于已经采取这些预防措施的优化用户,统计发动机将提供更直观的工作流程,并减少运行测试所涉及的努力。

我们也知道,在那里有很多人可能无法做到样本大小计算器告诉你的事情。但数字实验者是一群精明和持怀疑态度的束。如果每次偷看偷看的时候,如果事情看起来腥或重新运行样本量计算,你可能已经等了一定的天数。所有这些做法都确实有助于打击错误的机会。虽然您的错误率可能高于5%,但它也可能不会超过30%。如果您陷入本集团,统计发动机将从这些实践中释放您,而是为您提供有关您所需的错误率的准确期望。

一小步优化,在线优化的一个巨大飞跃

优化的使命是使世界能够将数据转化为行动。五年前,我们通过使用我们的视觉编辑器的非工程师可以使用A / B测试来实现这一任务。现在,成千上万的组织已经接受了将数据整合到每一个决定中的哲学。

今天,通过统计引擎,我们希望通过删除另一个屏障来实现行业,进一步进一步迁移到成为数据驱动的组织。通过赋予任何人分析具有强大统计数据的结果,我们的目标是授权企业支持与数据更重要的决定。

获取统计数据权对进行数据驱动的决策至关重要,我们致力于不断发展我们的统计数据来支持客户。我们迫不及待地等待与您一起编写在线优化的下一章。

我们期待着您的反馈和对统计数据的看法。请在留言中让我们知道你的想法!

想了解更多吗?我们’VE创建了许多额外的资源来帮助您以优化的方式加快统计数据:

优化X.