下载我们的免费电子书43 A / B检测案例研究,从世界领先的公司寻找考试创意和灵感。 现在下载

优化博客

构建您的实验计划的提示和技巧



此内容最初出现在 中等的.

什么是统计加速器以及为什么要使用它?

当客户设置A / B / N测试时 优化,他们选择将百分比的访客(或样本)接触到每个测试的变化。这是测试的 交通配置。除非客户手动改变它 - 例如,否则交通分配保持不变 - 例如,将流量转移到似乎比其他变化更好的变化。

多年来,我们只允许客户手动调整流量。随着时间的推移,我们从其中几个人听到了我们的设置是不方便和不可提供的,因为他们的目标经常调整流量。他们的业务需求可以分为两种情况:

  1. 识别统计上显着的变化: 在这种情况下,运行A / B / N测试的客户想要知道变化是否可以导致可操作的洞察力。也就是说,与给定度量的基线不同的变化是不同的?我们称之为差异 举起 or 改进。如果不同,请尽快找到从基线最远的一个 - 在控制时 虚假发现率(FDR)在预定的阈值下 - 所以这可以告诉他们如何优化他们的业务。
  2. 优化奖励一段时间: 在这种情况下,客户希望最大化影响,例如收入。例如,具有黑色星期五推广的客户可能希望在其着陆页面上进行不同的头条,以最大限度地利用利润。他们并不担心实施任何永久性变化;他们只想将游客指向了产生最高转换率的变化 现在,并在促销结束后删除他们网站的变化。

为了帮助客户实现这两个目标,我们推出了 统计加速度 有两种模式: 加速了解 解决第一个场景,和 加速影响 解决第二个。这两种模式都动态地改变了测试的流量分配,但它们的策略和意图差异很大。

加速了解

我们与之合作 凯文·贾米森,来自计算机科学&华盛顿大学的工程系开发了一种迭代算法,通过将更多访客指导更好的机会达到统计显着性的可能性,尽快发现显着变化。这优先发现效果大小的变化 - 即它与基线之间观察到的差异 - 是最大的,同时保持FDR以下给定阈值。我们实施了 他的算法 并称之为加速了解。

为简单起见,让我们假设所有变化都有一个真正的平均值大于本节其余部分的基线。这意味着 全部 最终将发现变化具有统计学上显着的改进。我们对首先发现尽可能少量的基线最远的变体。松散地说,该算法将更多流量分配给每次迭代的最高置信度的变化。最高置信束缚是置信区间的上端点,其置信区间从0.在下次迭代中,它观察所得到的变化的置信区间和经验方式,并基于该结果做出决定。一旦变异达到统计学意义,就会避免考虑并重复过程,其中算法侧重于剩余的不确定变体,以确定下一个最佳变化。

靠近基线真实均值的真实手段需要更多的样本来检测这种效果大小,而最远的距离需要更少的样品。为了识别真实方法与基线最远的变化,算法通过将置信区间解释为其将其视为该变化的最高值的最高置信度来解释。它选择了最高置信度的最高束缚并猜测这将是最好的表现。如果是正确的话,分配的样品将继续加强其观察到的经验意义,并且变异将更快地达到统计学意义。如果错误,更新的置信区间和经验均值会揭示这一点,并且算法重新分裂了其他变化。它根据在开始刚刚完成的轮次时使用的相同启发式符号:它假设其上置信界限最大的变化显示最潜力最为稳定统计显着性。

与使用统一分配相比,这种自适应算法减少了找到第一种最佳统计学显着变化的时间。看看 实验部分 本文,结果表明,这种加速度可以速度至少两到三倍。

作为一个例子,假设客户运行加速了解并正在寻找最佳变化。在时间t = t0,结果是:

图1.在更新时间t0更新测试的分配之前,加速了学习观察到的插图。虚线表示改进为0.对于每个变型,圆圈是观察到的改进,线代表其置信区间。虚线上方的任何东西都意味着改善是阳性的。

加速了解与var2和var3相比分配给var1的更多流量,因为它看起来它可以达到比其他样品更少的统计显着性。这是通过其置信区间建议的,其上限是0的最远。

在时间t = t0 + 1 - 下次我们运行算法时 - 我们观察结果:

图2.在我们运行时会加速学习的一个迭代后观察到的。

var1达到统计学意义,因此我们不再考虑它;我们将新访客分配到剩余的不确定变体,以尽快确定下一个最佳统计学上的变化。

加速影响

为了优化Bernoulli度量标准,我们使用Thompson采样(请参阅下面的词汇表以解释这些术语)。对于每个变体,我们使用测试当前观察到的独特转换数量和访问者的数量来表征 β发行。我们将这些发行版进行了许多次并根据其赢得比率分配流量。

例如,假设我们在更新流量分配时比较唯一转换的结果:

图3.在Bernoulli公制下观察结果的实验​​结果。

我们表征了Beta分布,表示为 Beta( - , - ),基于这些值,其中 - 是唯一转换的数量,并且是每个变体的访问者数量。例如,原件的特征在于beta(189,323)。

图4.由图3中的结果以结果为特征的测试的β分布。

我们对这些分布进行示例n次 - 例如 - 记录在每轮中产生最高值的分布。这模拟了如果我们有10,000名分配给原始的访客,可以发生10,000名变化#1和10,000到变体#2,则会模拟可能发生的事情。每种变体赢得的次数的比率确定分配给它的新访客的百分比:

图5.汤普森采样的结果,其中n = 10000。

在下一次迭代,我们再次使用更新的观察再次运行Thompson采样。

上述算法适用于二进制指标,但不是用于数字指标。对于数值指标,例如每个用户的收入或事件数量,我们实施了epsilon-greedy匪徒(有关详细信息,请参阅下面的词汇表)。该强盗在勘探的所有变化中均匀地将流量的小(epsilon)部分分配,然后将较大(1- epsilon)分配给与剥削的最大观察平均值的变化分配给变化。

勘探 - 剥削困境

由于需要成为探索性目的指定的一部分交通的原因是因为实证方法可能不会靠近其真实手段。 epsilon-贪婪和汤普森抽样的加速影响是解决剥削探索困境的共同策略(见剥削和勘探定义词汇表)。由于测试的早期阶段的不确定性,汤普森抽样利用早期探索,而epsilon-贪婪侧重于剥削,汇集大多数流量到最高的实证平均值。如果客户只利用他们所观察到的信息,那么他们会将所有新访客指导到具有最高实证均值的变化。但是他们如何知道这种变化是否确实具有最高的意思?他们需要更多的样品来减少这种不确定性。这是探索成为必不可少的地方,因为这揭示了更多关于潜在手段的证据。因此,这两者之间的平衡是必要的。

加速了解也有一种探索和剥削的形式。在利用方面,它使用每个变体的上置信度,将更多流量分配到最高限制。如果它的决定是次优,它将从测试的更新结果中知道。结果,它将探索其他变化。

我应该何时使用加速影响与加速了解?

加速了解 为客户提供可操作的洞察力,在他们的业务中可以快速实现最佳的重要变化。它侧重于变体的统计不确定性,使用置信区间更新测试的分配,以减少找到最佳显着变化的时间。

加速影响 应该用于促销,销售或任何临时的东西,其中意图是推动更多流量到具有最高度量值的变化。它只专注于变化的经验均值,以通过汇集更多交通来最大限度地提高到获胜变化的意图。

从客户自动化流量分配的愿望和他们不同的业务需求来自两个不同的算法,每个算法都集中在不同的目标上。

即将推出:关于我们如何解决辛普森的悖论的博客帖子

在我们的下一个博客文章中,我们将讨论这些票价如何在野外。具体来说,我们将研究如何变化 - 例如访问者行为的季节性 - 与流量分配变化相结合 辛普森的悖论。更多关于这一效果,以及我们如何解决即将到来的帖子。敬请关注。

你觉得这个有趣了吗?加入我的团队!我们正在招聘ML工程师 旧金山 and 奥斯汀.

词汇表

  • 手臂:这是匪盗林科。一只胳膊是一个变化的代名词。
  • Bernoulli指标: 可测量的动作,即0或1,例如访问者是否转换。
  • 规模效应:在A / B / N测试中,这是基线和变异之间观察到的差异。
  • epsilon - 贪婪的匪盗:请在“匪徒策略”下查看“epsilon-贪婪战略” 这里.
  • 开发:Bandit Lingo。发出当前信息的决定。
  • 勘探:Bandit Lingo。收集更多信息。
  • 探索 - 剥削 问题:Bandit Lingo。我们是否将所有流量指导到我们观察到的最高经验均值(剥削)?如果这不是最佳变化,那么我们如何将一些流量指向其他变化,以找到最高的真实均值(探索)?这两个州之间的最佳权衡是什么?
  • 假发现率:这是在一组A / B / N测试中所做的所有发现中,对NULL假设的不正确拒绝的平均数。看看这很棒 文章 谈论我们在内部使用它的原因 统计发动机.
  • 多武装匪:通过决定如何分配资源来优化特定功能的问题的类型。
  • 数字指标:一个不是0或1的可测量事件(读取:不是Bernoulli度量标准)。这包括收入等度量,每位访问者的点击次数等。
  • 样本:观察。如果我们衡量每个访问者的独特转换,则样本将是访客。
  • 统计学意义:给定变化与基线之间的转换率差异的可能性不是由于机会。看看这一点 关联 看看如何置信度和统计学意义是相关的。
  • 汤普森抽样:启发式可以选择如何在多武装匪徒场景中解决探索探索问题的同时分配流量。看看这一点 关联 深入了解本主题。
  • 交通配置:将新访客分配到测试的变化。
  • 上限界限:Bandit Lingo。也称为UCB。置信区间的上部值。
优化X.