下载我们的免费电子书43 A / B检测案例研究,从世界领先的公司寻找考试创意和灵感。 现在下载

优化博客

构建您的实验计划的提示和技巧



这是一个系列的第二部分 统计加速度。在 第一部分,我们解释了统计数据加速器的何时,为什么和如何。在当今的分期付款中,我们将讨论一个主要的障碍,以成功成功地制定A / B测试背景中的匪徒,以及我们最终如何克服它。这是一个高级概述。为了更详细的治疗,见 技术白皮书.

去年秋天, 优化宣布的统计数据加速器, 一对 多武装强盗算法 加速实验。这些算法旨在优化奖励一段时间或识别a 统计学意义 尽快通过智能地改变变体之间的流量分配(或 武器, 在机器学习Lingo)的实验。

然而,当基本转换率或手段随时间变化时(例如,由于季节性),动态流量分配可能导致治疗和控制之间差异的估计造成大量偏见,这是称为辛普森的悖论的现象。这种偏差可以使用统计加速器的实验完全无效,在虚假发现速率控制上打破通常保证。

为防止这一点,我们开发了epoch stats引擎,这是对我们现有的简单修改 统计发动机 方法论,这使得它对辛普森的悖论强大。其核心是对照与治疗之间的手段差异的分层估计。因为它不需要估计潜在的时间变化,并且也与其他基于中央限制定理的方法(如T-Test)兼容,我们认为它升力了将传统假设测试和强盗方法组合到A / B测试中的基本障碍。实践。

什么是时间变异?

许多人背后的基本假设 A / B测试 是我们感兴趣的底层参数值不会随着时间的推移而改变。当这种假设违反时,我们说有 时间范围。在使用STATS Accelerator的A / B实验的上下文中,辛普森的悖论只能在时间变化的情况下出现,因此精确地了解时间变化将是有用的。

让我们走一步。在每个实验中,我们想象有底层数量,可以确定每个变异的性能;我们有兴趣测量这些数量,但不能观察到它们。这些是 参数。例如,在一个 兑换率 Web实验我们想象页面的每个变体都有一些真正的能力为每个访问者诱导转换。如果我们在每个访问者转换的可能性方面表达这种能力,那么这些能力 真正的转换概率 对于每个变化,是感兴趣的参数。由于参数未被观察,因此我们必须计算 点估计数 从数据到推断参数值并决定控制或治疗是否更好。在转换率示例中,观察到的转换率为每种变体的真实转换概率的点估计。

噪音和随机性将导致点估计波动。在基本A / B场景中,我们将这些波动视为围绕常量参数值的居中。但是,当 范围 价值观随着时间的推移,反映了控制和治疗的真正表现的潜在变化,我们说有 时间范围.

图1A:传统,无时间变化视图A / B测试后面的参数值。

图1b:在A / B测试中影响基础参数值的时间变化的示例。

经典的例子是季节性。例如,怀疑在工作周期间对网站的访问者往往是合理的,这些游客可能会与周末的游客不同。因此,与周末相比,转换率实验可能会看到平日的更高(或更低)观察到的转换率,反映了真正转换率的匹配潜在的时间变化,这代表了参观者在平日和周末行为的基本真实差异。

时间变异也可以表现为一次性效果。对于12月份的20%-ofo -off销售的横幅的着陆页可能会为12月的访客产生高于通常的购买数量,但在1月到来之后下降。这将是表示该页面每个访问者的平均购买数量的参数的时间变化。

时间变化可以采取不同的形式,并以不同的方式影响您的结果。时间变异是循环(季节性)或瞬态(一次性效果)表明不同的方式来解释您的结果。另一个关键区别对时间变异如何影响实验的不同武器。 对称时间变异 当参数在时间越差时发生,使得实验的所有武器平等地影响(在不久的意义上)。 不对称时间变化 涵盖一个广泛的情景,那不是这种情况。 Optimizely的统计发动机目前具有检测强不对称时间变化的功能,并将相应地重置统计结果以避免误导性结论,但是处理不对称的时间变化一般需要强烈的假设和/或全部不同类型的分析。这仍然是一个开放的研究领域。

在下文中,我们将根据简单性的添加效果将自己限制在对称情况下。具体来说,我们想象控制和治疗的参数 θC(t) and θT(t) 可以写成 θC(t)=μC + f(t)θT(t)=μT + f(t) 因此,每个都可以分解成非时变组件 μC and μT 和时间变异的共同来源 f(t)。因此可以通过非时间依赖量来写入潜在的升力 μT – μC = θT(t)– θC(t).

通常,当时间变化的源不与特定变化相关但是来自的整个访客群体时,发生这种对称时间变化。例如,冬季假期期间的游客更倾向于一般购买。因此,即使在变化和控制的较高的整体假期影响的速率下,诱导更多购买的变化趋于保持对控制的差异。

通常,大多数A / B测试程序,例如T检验和顺序测试对这种类型的时间变化很稳健。这是因为我们通常不太感兴趣地估计控制和治疗的各个参数,并且对参数之间的差异更感兴趣。因此,如果两个参数以相加方式撞击相同的量,则一旦差异,就会抵消这种时间变化,并且任何后续推断将相对不受影响。使用上面的符号,这可以看出,在时变参数的差异中可以看到 θT(t)– θC(t) = μT – μC 不包含时变因子 f(t).

事实证明,当向等式引入动态流量分配时,对称时间变化的无序似乎可能成为一个完全不同的野兽。

辛普森的悖论

如果在实验中分开的流量分裂,则在与底层时间变化同步调整,则可以相对于另一个臂分配给一只臂的低或低执行流量的不成比例的量,偏置了我们对两个臂之间的真实差异的观点。这是辛普森的悖论,现象的一种形式 当组合在一起时,几个不同数据组出现的趋势,然后在组聚合时消失或反转。 这种偏差可以通过欺骗统计方法,以声明较大或更小的效果大小来完全无效地无效。让我们通过一个例子激励这一点。

考虑一个两个月的转换率实验,一种控制和一个治疗。在11月份,控制和治疗的真正转换率分别为10%和20%。在12月份,他们上升到20%和30%。在每个月,转换率的差异是10个百分点(PP)。

如果在实验的整个持续时间内将交通分为50%和50%以控制(或任何其他比例),请清楚地估计两种变化之间的差异应接近10 %。如果交通在11月份拆分50/50,则会发生什么,但随后将在12月份的75%的人控制和25%的治疗?为简单起见,让我们假设每个月有1000名参观者到实验中。一个简单的计算显示:

控制:

总访问者:500 + 750 = 1250

高转换制度的百分比:750/1250 = 60%

治疗:

总访问者:500 + 250 = 750

高转换制度的百分比:250/750 = 33%

因此,控制和治疗都有平等数量的游客从低转化的11月,但游客的待遇远远少于对12月的高转换。这种不平衡的线索在那里将存在偏见,并进行数学证实这一点:控制的转换率为约16%,治疗的转换率为约23%,差异仅为7%比我们通常期望的10%。

这种现象在连续的观点中也奠定了清晰,例如优化的客户能证明:

图2A:观察到的转换率在随着恒定的交通分配时变化的运动

图2B:观察到的转换率在随着时间的变化下变化的转换率的运动。仿真从50%的分配开始治疗,最初,在2,500名访客后切换到90%的治疗。

在该示例中,减少的点估计可能导致统计方法未能在否则不偏的点估计越近10%时报告意义。但其他不利影响也是可能的。当没有真正的效果时(例如,我们运行A / A测试),辛普森的悖论可能导致显着的正面或负面影响的幻觉,导致误呈现误差。或者,当时间变化尤其强或与时间变化很好地同步时,这种偏差可以是如此令人震惊的,以反转控制和治疗参数之间的估计差异的符号(如图2a所示) ,完全误导的实验者对其建议变革的真实效果。

epoch stats引擎

由于辛普森的悖论表现为对控制和治疗的手段差异的点估计的偏差,因此减轻了辛普森的悖论需要提出去除这种偏见的方法。反过来,删除偏置需要考虑导致它的两个因素之一:时间变化或动态流量分配。由于时间范围未知,因此必须估计,但是通过客户直接控制流量分配,因此已知,因此我们选择专注于后者。

我们对辛普森的悖论的解决方案遵循观察结果,即辛普森的悖论引起的偏见不能发生在不断流量分配的时期。因此,我们可以通过在持续分配期间提高估计来衍生无偏估计(称为 时代)然后聚合那些单纪元内的估计,以获得跨越时代估计的一个无偏见。如果我们可以表明,此数量与统计引擎引擎盖下的顺序测试方法兼容,那么我们有一个即插即用解决方案,可以使用统计加速器与实验无缝工作。正如我们也会看到,该估算器也很简单,可以应用于其他统计测试,例如T检验。

让我们进入数学一下。假设有 k(n) 通过实验已经看到的总时代 n 游客。在每个时代内 k,表示 nK,CnK,T. 样本尺寸分别进行控制和治疗,并通过 Xkȳ k 分别对照和治疗的样本方法。卖 nk = nK,C + nK,T.,划分估计器的差异是

由于数据相关分配规则引起的时期的依赖性被限制为控制和治疗之间的交通相对平衡的变化,但时期内估计是正交的和方差 Tn 通过估计的时期内部组分的估计变差总和估计:

在哪里 σ.Cσ.T 是对控制和治疗臂的数据生成过程的标准偏差的一致估计。

在高水平, Tn 是分层估计,地层代表属于固定分配的各个时期的数据。在较低的级别中,这是在纪念内部估计的加权估计,其中分配给每个时代的重量与该时代内的访问者的总数成比例。这也是为什么我们将时代估计视为“加权改进“在结果页面上使用Stats Accelerator进行实验。

图3:计算在实验中的真实转换概率差异的epoch分层估计(计算为15,000名访问者),其在10,000位访客中发生了一次性分配变化和一次性对称时间变化。

值得重复的是,由于每个内部估计值都是无偏见的,因此保证了EPOCH估计值得无偏见。此外,我们提供严谨的保证,即时代估计与优化采用的连续测试完全兼容,并且通常适用于其他中央极限定理的方法(例如T检验)。看看 全面写作 for more details.

模拟数据的性能

我们模拟了时间变化的数据,并在该数据上运行四种不同的统计引擎配置:

  1. 标准统计引擎
  2. epoch stats引擎
  3. 标准统计引擎加速了学习
  4. epoch stats引擎与加速了解

具体而言,我们生成600,000从7个Bernoulli臂,一个控制和6个变体绘制,具有1个真正更高的转换臂和所有其他更高的转换臂,以与控制相同的速率转换。控制的转换率在0.10时开始,然后经历高达0.15的循环时间变化。在每个绘图中,我们在横轴上绘制了横轴的访问者,垂直轴上的假发现率(FDR)或真正的发现速率(TDR),平均超过1000模拟。

图4:上述模拟场景的平均假发现速率随时间。

FDR Plot表明,EPOCH STATS发动机确实设计了我们设计的事情–保护客户免受辛普森的悖论引起的虚假发现。非Epoch BaRtit策略的FDR超过配置的FDR级别(0.10)高达150%,而Opoch的强盗策略显示了与未启用的统计信息发动机实现的级别相当的级别的适当控制。这是主要目标–将FDR水平带入到无与伦比的无法启用的BANDIT可比的水平。

图5:上面描述的模拟场景的平均真实发现速率。

TDR绘图表明,由于从标准到epoch stats引擎的切换,我们不会失去大量的电源。首先,我们观察强盗分配运行之间的巨大差距,并且固定分配运行反映了由于在epoch stats引擎下保留了由于强盗分配引起的加速的事实。此外,我们在固定分配下观察到时代和非时期情景的时间差异很小,同时我们在强盗政策下的时代和非时代情景之间观察到少量差距。该间隙可以归因于在动态分配下运行的非欧姆区统计发动机的事实经历了对时间变化的高敏感性,特别是在穿过时代边界之后,从而产生蓝曲线的扇形形状。高等的TPR是高级FDR支付的。

结论

优化,我们为同时推动A / B检测的信封而自豪,同时始终优先考虑统计严格,以确保客户做出最大的决策。

我们所看到的 以前的博客文章,关于此主题的最新迭代产生了统计加速器,是具有虚假发现率控制的多武装强盗技术的婚姻。在纪元统计引擎中,我们已经估计了一个主要的真实障碍,以安全生产这项技术,并开发了一种解决方案

  1. 在理论和模拟中,证明在顺序测试中使用顺序测试
  2. 易于计算和理解,和
  3. 广泛适用于其他方法和平台,不仅仅是连续测试和优化

对更深入的潜水感兴趣?退房 技术论文!

你觉得这个有趣了吗?加入我的团队!我们正在招聘A. 统计员 in San Francisco.

优化X.