下载我们的免费电子书43 A / B检测案例研究,从世界领先的公司寻找考试创意和灵感。 现在下载

优化博客

构建您的实验计划的提示和技巧



为什么2个反对统计学派的思想实际上都是必不可少的

悬架 - 布尔迪 - 金门 拱桥
就像悬挂和拱桥一样,两者都成功地跨越差距,贝叶斯和频繁的统计方法都提供 问题的答案:哪种变化在A / B测试中最适合进行?

统计数据是了解您的A / B测试结果的重要组成部分 - 计算单个数字的方法,该方法确定是否可以采取在实验控制上实现变化的操作。但是,有很多方法可以到达该号码。你应该使用哪种方法?

两个常用的计算方法 统计学意义 是频繁的和贝叶斯统计数据。历史上,行业解决方案 A / B测试 往往是频繁的事。然而,贝叶斯方法提供了一种以与频率完全不同的方式计算实验结果的有趣方法。在统计世界中,两种方法都有奉献者 - 有点喜欢选择政党。

在1月,我们 发布统计引擎 并采取了一个中等的立场:您应该能够利用结果中的贝叶斯元素,并使用它们来支持提供稳定性和数学保证的频繁的原则。

在这篇文章中,我们将涵盖每种方法的好处和缺点,为什么选择优化的选择将两者的元素合并到我们的 统计发动机.

贝叶斯和频繁的统计数据是什么?

贝叶斯统计 采取更自下而上的数据分析方法。这意味着过去的对类似实验的了解被编码成称为a的统计装置 事先的 ,此前与当前的实验数据相结合,在手头进行测试中进行结论。

致命错误实验

相关文章: 21个统计术语实验者需要知道 (with cats)

另一方面, 频繁统计 仅使用来自当前实验的数据对实验的基础事实进行预测。频繁的论点在自然界中更令人处境,并且类似于律师在法庭上使用的逻辑类型。我们大多数人都在入门级统计课程中学习频繁的统计数据。我们问的T-Test,“这种变化与控制不同?”是这种方法的基本构建块。

统计说话的A / B测试的目标是确定在实验期间收集的数据是否可以得出结论,网站或应用程序的一个变化可测量地与另一个不同。贝叶斯和频繁的方法将研究来自不同观点的相同实验数据。就像上面的悬架与拱桥一样,他们努力完成相同的目标。这两种结构都提供交叉差距的目的,并且在A / B测试的情况下,贝叶斯和频率方法都使用实验数据来回答相同的问题:哪种变化最好?

任何一种方法有什么好处?

A / B测试平台喜欢 优化 使用频繁的方法来计算统计学意义,因为它们可靠地提供关于未来性能的数学“保障”:从实验中预测的实验中的统计输出实际上在实施时实际上将比基线更好,得到足够的时间。例如,通过频繁的保证,我们可以发表陈述:“少于5%的实施变化将看到其95%置信区间之外的改进。”

permanical_guide_to_stats_cover(1)

有关此主题的更多信息,请下载电子书, 在线实验的统计统计指南.

另一方面,贝叶斯测试利用先验知识来计算实验结果。贝叶斯方法最大的优势在于,他们将使用先前的知识,每个实验者带到桌子上。无论当前还是先前,使用您所在的所有信息都应导致最快的实验进展。如果使用历史数据计算统计事先的假设是正确的,这应该有助于实验者更快地达到统计学意义。

但是,贝叶斯方法并不总是具有与未来性能的常见方法相同的保证。如果我们要自动使用它们,就像他们这样做一样,将频率判决类似于上述一个以置信区间为贝叶斯计算,我们可能导致了不正确的结论。这是因为现有实验知识可能实际上无法与新实验中生成效果的风险,如果您不考虑它,则可能会导致误入歧途。

在一个 纽约时报 文章从去年描述贝叶斯统计数据的应用,提交人考虑了搜索遗失渔民的一个例子。海岸警卫队能够使用有关当地地理和过去搜索的数据,以便预测哪些领域更有可能包含失踪的渔民。随着有关当前搜索浮出水面的更多信息,这些输入与自然知识相结合’先前的行为来加速搜索,这导致了一个快乐的结局。

将这种成功故事推断到A / B测试的主要缺陷是纳入尚未实现的信仰 ’与现实的匹配可以完全相反的效果 - 不正确的结论和正确答案的速度较慢。 A / B测试的目的是从您的实验中学习以制定未来的行动,无论是实现变化,还是运行更多的测试。您今天所拥有的先前信息可能不会在未来同样适用。

对冲迷宫 这是有效地喜欢使用您之前完成的迷宫的地图以导航新的映射。它可以帮助您更快地完成迷宫,或者它可能会导致您的错误路径,需要更长时间才能找到出口。

最终,无论应用什么样的统计方法(贝叶斯或频繁的统计方法,误解或滥用统计数据都会产生差的结果这些统计数据的版本进入我们的产品。坚实的统计陈述,并以可访问的方式呈现它们,对我们的客户具有更大的利益,而不是挤出每次最后一滴效率。

常见的事物和贝叶斯倡导者的未来看起来像什么?

然而作为我们 开发了一个统计模型 更准确地匹配优化的客户如何使用他们的实验结果来做出决定(统计发动机)尽可能清楚的是,最好的解决方案需要混合频率和贝叶斯方向方法的元素,以提供频繁的统计数据的可靠性以及贝叶斯人的速度和敏捷性。

这种方法沿着统计学中众所周知的第三学校的一线。它被称为经验贝叶斯,基于统计方法应纳入贝叶斯和频繁意识形态的优势的原则,同时减轻了两种弱点。

与桥梁概念一样,经验贝叶斯与两种方法相结合,为手头的问题提供了一种创新的解决方案,并有助于避免单独选择拱门或悬架桥的困难。

悉尼港桥

结合拱形和悬架建设的最佳型拱桥,可以通过悉尼港桥看到的给定差距来提供最佳结果。

事实上,优化的 统计发动机 将一种方法直接从经验贝叶斯思维行进,使用户可以在不牺牲统计学准确性的情况下测试许多目标和变化组合。

Benjamini-Hochberg方法控制一种称为False Discovery Rates(FDR.)FDR的统计误差是一个测量,该测量值解决了同时运行多个A / B测试时可能产生多个错误。如果您运行多变量或者,这通常是一个问题 A / B / N实验 有许多变体,或在实验中追踪许多目标。

我们详细介绍了这种方法如何工作以及为什么它提出了企业在我们的统计错误率 在统计引擎上的博客帖子 更详细 技术写作。我们最近还记录了一个 网络研讨会 使用FDR的示例,用于A / B测试。

Benjamini-Hochberg FDR控制此错误的方法已被证明是常见和贝叶斯标准的成功。该程序不仅合理地纳入先前的实验数据,而且还给出了您预期的结果和频繁的统计保证,无论您采取哪个角度。

在学术和医疗环境中对本Jamini-Hochberg方法的迅速和深远的接受可以归因于该方法使贝叶斯人和其优点的频率差异。

所以我们认为每个人都应该像频繁的事物一样思考吗?贝叶斯?一个经验的贝叶斯?一点也不。你应该急忙占据其中一个营地的颜色吗?当然不是。这些意识形态持续存在的原因是,在一个非常基本的层面,他们是从您的数据中思考学习的好方法。

我们觉得为了成为知识渊博的A / B测试仪,如知情选民或有效的结构工程师,重要的是要了解您可用的选择。我们很兴奋不仅要找到最佳统计数据,以满足您使用数据来做出决策和采取行动的方式,还会赋予您使用它们。

优化X.