下载我们的免费电子书43 A / B检测案例研究,从世界领先的公司寻找考试创意和灵感。 现在下载

优化博客

构建您的实验计划的提示和技巧



作为实验者,在运行A / B测试后做出决定的压力可以导致对非重大实验结果的一些非常古怪的解释。毕竟,它甚至是什么意思是“统计学意义方向的趋势”(在最近的实验审查期间,在最佳的实验期间实际上证明的短语)?

在这篇文章中,我会谈谈如何根据非重要A / B测试结果使用信心间隔来对虚空决策,而不会影响您的知识完整性。

合理的声音,但谬误陈述优化’s Experiment Review

我最喜欢的会议是我们的每周 实验审查。 这是一个人们聚集在一起磨练产品实验理念并分享过去实验结果的地方。这是给予和接受反馈的好地方,我每周都期待它。

但是,我,就像许多实验者一样,在展示了一个实验的无法理想的位置,没有指标达到统计学意义。在那一刻,从实验中收集物有所值的压力可能非常高。要达到这一点,你的想法必须击败无数的其他令人敬畏的想法来升到积压的顶部。工程师花了有价值的循环编码它。它跑了几个星期。现在,该团队正在向您展示关于产品方向的数据驱动的决定。 -

可怕的“sea of grey” strikes again!

观看精神体操实验者在这种情况下,是实验评论的真正乐趣之一。以下是一些合理的声音,但最终对我听说过的非静态重要结果的谬误解释:

  • “方向性地说,变异A越来越擅长控制”
  • “变化A在WIN的方向上趋势”
  • “变异A对所有变化具有最高意义,因此这是一个好标志”
  • “如果你拿着枪,我想我会变的变化”

我们都知道,智力诚实的事情将使我们的能源集中在设计测试的下一次迭代时,这更有可能达到重要意义。使用p值时,统计值应为黑色和白色:结果显示统计学上显着效果或它们没有。或者给它一个更诗意的措辞:

当我发现自己在谈论“定向结果”时,我在我不孤单的事实中安慰。事实上,可能的错误(Matthew Hankins'幽默统计博客)编译 创意语言列表 对于在同行评审的学术期刊中发现的“非重大结果”。我的一些收藏包括:

  • “意识到的不可思议趋势”
  • “缠绕着重要意义”
  • “在狭义上不显着”
  • “方法但未能达到习惯性统计学意义” -

所以,如果甚至职业学者都容易出现这种有缺陷的逻辑,那么我们应该在面对非显着成果时做的实验凡人呢?

输入置信区间

置信区间为您的指标表达了一系列可能的改进值。对于尚未达到意义的指标,该范围将是相当大的并且将包括0(即,有机会 零假设 是真的)。好消息是,这一系列的价值观让您了解上下边界,以便您认为您的测试更强大的真实改进。在优化结果页面上,具有90%的度量阈值的度量的“真实”改进将在置信区间内具有90%的可能性。

这使您可以说“变更A的转换率可能不会比基线转换率差异”。如果你的目标是通过改变改变而不是伤害表现,可能就是做出决定,这听起来比称之为“定向胜利者”好多了。

我自己遇到过这种情况。例如,采用Intemizely实验概述页面的测试。假设:显示此页面上每个实验的访客计数将使用户更容易找到相关数据,而无需单击每个测试的结果页面:

这个想法很简单,通过客户反馈验证,只是做出直观的意义。麻烦是:如何制作数据驱动的决定滚动它?其中一些人认为,接触治疗的用户将看到较少的结果页面,而其他人认为它可能会增加结果页面浏览量(因为否则认为结果的用户变得好奇)。如果有些用户增加了结果页面的消耗,而其他用户则减少他们的消费,我们将如何能够从我们的测试结果中解释哪些可能是平坦的?

最终,我们决定我们不想使这种变化的唯一原因是我们在董事会的结果页面消耗中看到了大幅下降。

在一个月内运行实验后,是时候分析结果了。正如我们所担心的那样,我们的主要指标没有取得意义,我们需要决定下一步该做什么。通过检查“实验访客”变异的置信区间,我们能够建立改进的“下限”:

尽管这种置信区间相当广泛,但它帮助我们了解我们正在进行这种变化的风险水平。换句话说,最坏情况的情况是,使得这一变化将减少到结果页面的转化〜22%。鉴于使其更容易找到相关的实验结果可以合理地减少所观看的无关效果页数,这似乎是一个可接受的权衡。

能够与非重大指标进行统计严格的决定?查看!谢谢信心间隔!

 

了解有关优化统计引擎如何计算统计显着性和置信区间的更多信息。 获取白皮书。

优化X.