下载我们的免费电子书43 A / B检测案例研究,从世界领先的公司寻找考试创意和灵感。 现在下载

优化博客

构建您的实验计划的提示和技巧



统计猫“嗯,我们什么时候再次使用它?”

各地的课堂上的课堂困境已经回到了美国 - 我们许多人在高中数学教科书中留下的概念现在与我们A / B测试策略的成功高度相关。

对于我们大多数人来说,自从我们上次想到Chi-Square测试或计算p值已经过了几年。现在是时候再次挖掘了。

为什么? 统计数据是我们的实验结果的支撑 - 他们帮助我们对不完整的数据进行了解测试结果。为了在统计上进行统计声音A / B测试,投资对这些关键概念的理解是必不可少的。

permanical_guide_to_stats_cover.

用实验的统计数据深入 这个电子书.

使用此术语索引作为未来阅读统计数据的底漆,并保持此项 词汇表 随着您的团队,您的下一个深入潜入实验结果的方便。无需先前的统计知识来理解这些条款;但是,一些概念是相互关联的,因此您可以在阅读时发现自己在定义之间跳跃。

如果您想更详细地探讨这些条款(或对猫过敏),请下载 在线实验统计统计指南.

21个统计术语实验者需要知道

  1. 贝叶斯统计: 一种统计方法,可以在计算时采用自下而上的数据分析方法 统计学意义。这意味着过去的对类似实验的了解被编码成称为a的统计装置 事先的,此前与当前的实验数据相结合,在目前运行的实验结束。
  2. 置信区间: 计算范围用于描述一些潜在参数估计的确定性。在A / B测试的情况下,这些基础参数是转换率或改进率。置信区间具有一些理论解释,大多数实际上是一种间隔,具有含有真正改进的一定概率(例如,含有真正改进的95%的概率。)
实验置信区间

–获胜变化将具有完全高于0的置信区间–不确定的变异将具有包含0的置信区间–失去的变化将具有完全低于0的置信区间

  1. 连续监控: 反复检查实验结果的行为。这是一种不安全的方法,用于进行传统统计数据,因为它在到达时要停止实验很诱人 统计学意义 第一次,即使它是在所需的那些效果的样本大小之前。
连续监测猫GIF

“赢得变化?失败者?不确定?优胜者!”

  1. 规模效应: 测试的原始和变体之间的差异。这是许多人的输入 样本大小计算器 用于固定地平线测试(“MDE”。)优化,这是“改进。“
  2. 错误率: 当有机会单独或没有发现差异时,在A / B测试中的控制和变化之间找到结论性差异的机会。这包括两者 I型 type II errors, 或者 误报假阴性, 分别。
实验假正图

假阳性是一个实验结果,当没有实际存在时显示出不同。假阴性是一个实验结果,当实际存在时没有差异。

  1. 假阳性率: 遇到a的几率 I型 错误,或在实际存在时找到重要结果。它可以通过划分的数量来计算 误报 通过(误报的总数+真正的否定。)
假阳性猫

你追逐激光斑点,但它消失了:可能是一个假的积极。

  1. 虚假发现率: 遇到的几率 输入I错误 在具有许多同时目标和变化组合的实验中,可以在给定的意义阈值下通常预期的液体膨胀。通过将误报的数量通过显着结果的总数除以误报的数量来计算的预期错误发现 - 不正确的赢家和失败者。

了解有关虚假发现率的更多信息>>

固定地平线猫

只能看待固定地平线…

  1. 固定地平线假设试验: A 假设试验 这使得使用传统统计方法 - 通常,这些统计方法由T检验供电,专为实验者在特定时刻做出决定(理想情况下,在达到实验访客的预设样本大小之后。)
  2. 频繁统计: 一种统计方法,可以在计算时使用来自当前实验的数据的实验基础真理进行预测 统计学意义。频繁的论点在自然界中更令人处境,并且类似于律师在法庭上使用的逻辑类型。
  3. 假设试验: 有时称为T检验,用于确定实验结果是否可能因机能而确定的统计推理方法。假设试验试图反驳一个 零假设,假设两个变化是相同的。在A / B测试的背景下,假设测试将有助于确定一个变化比另一个变化更好的概率,假设变化实际上是相同的。
假设猫

如果我们的零假设被证明是假的,我们将在我们的爪子上有一些非常令人兴奋的实验结果。

  1. 改进: 有时称为“升力”或“效果大小”,实验处理(变化)在正面或负方向上的性能变化。这可能意味着转换率的增加,积极的改善;或减少转换率,负面改善。
  2. 零假设: 计算统计显着性的假装。这是假设实验处理(变化)将与原件相同。当计算统计显着性时,它代表拒绝零假设的可能性,或者实际上存在变化和原始差异的可能性。一个目标 假设试验 是拒绝这种无效假设,即两个变化是相同的。
  3. p值: 通过随机机会,您在实验中的变化和控制之间发现了统计上显着的差异。量化时,它回答了这个问题:如果零假设是真的并且我的变化和控制之间真的没有区别,这会发生这种改进是有多可能的?换句话说,测试测试的转换率差异有多大可能是由于随机的机会?这也可以被认为是测试的1型错误率。
  4. 示例大小计算器: 一种减少方法 I型错误 在假设测试下的假设下 固定地平线测试。在启动实验之前设置测试的样本大小设定在计算结果之前,对实验收集数据的长度来设定期望。
计算器猫

在5%的MDE,我们的实验需要在我们达到统计学显着的结果之前为5只猫生命运行。

  1. 顺序假设试验: 一个子集 假设检验 实验者可以随时做出关于他们的测试的决定。在这种情况下,测试没有“地平线”,并且连续监测不会引入增加误报(错误)的风险,因为它在固定的地平假设试验中。
  2. 统计信心: null假设的可能性不是真的。它可以被认为是变异与变异不同的机会或“置信”。它计算为(1–p值)在优化的结果页面中是“统计学意义”。
  3. 统计错误: 统计误差是达到统计显着性的结果,该显着性不代表不代表。由于虚假的实验数据运行,统计错误发生了涂抹误导性的图片与您的访客和用户实际发生的事情。有时被称为误报或 输入I错误,这些是从实验中误导信号,这些信号不会随着时间的推移转化为真正的改进。
致命错误实验

统计错误使我们脾气暴躁,这就是为什么我们为我们的实验设定了高统计显着性水平。

  1. 统计力量: 有时表示为(1–II型错误),这是实验者在存在时检测到差异的概率。它也是正确拒绝零假设的概率。在 优化的统计引擎,所有实验都是充分的动力。
  2. 统计显着性水平: 门槛 p值 实验者将接受。在P值阈值≤05的情况下,统计显着性显示为95%。该阈值描述了实验者在给定实验中对实验者舒适的误差水平。
  3. I型错误: 在声明结论结果(获奖者或失败者)时发生,并且测试实际上是不确定的。这通常被称为“假阳性。“在那里“积极”更精确地描述为结论(可以是赢家或失败者。)计算统计显着性的假设试验通常这样做是为了控制它们运行的​​实验中的这些类型的错误。
  4. II型错误: 当没有宣布没有确凿的结果(获奖者或失败者)时发生,未能在有一个时发现控制和变异之间的结论性差异。这也称为“假阴性”。
优化X.