下载我们的免费电子书43 A / B检测案例研究,从世界领先的公司寻找考试创意和灵感。 现在下载

优化博客

构建您的实验计划的提示和技巧



这篇文章最初出现在 BBC数据科学博客.

说到优化时,我们大多数人都会考虑越来越多的电子商务的转化和收入,否则称为CRO(转换率优化)。虽然越来越多,媒体和服务品牌正在使用实验作为提高客户参与和培养忠诚度的手段;专注于保留而不是收购。除了有针对性的消息之外,减少流失,通过制作产品或使用快乐来获得忠诚度。具有如此多的内容现在可以在这么多不同的平台上,产品需要成为一流的课程,以便成长并保留他们的用户群,BBC对此并不例外。

“我们需要继续在传统渠道和服务方面做辉煌的事情。但也在数字空间中真正出色,在那里我们的观众越来越多,我们面临着巨大的竞争,我们有机会以令人难以置信的新方式为他们服务“

托尼大厅,英国广播公司总干事

实验是我们可以使用的许多研究方法之一,用于实现将观众放在我们的数字产品核心中的目标。 A / B测试使我们能够通过数据驱动的产品开发来增加参与,并确保我们为观众创造最佳经验。

当成功不是转换时

在电子商务中,A / B测试中的主要度量的选择相当简单,因为一般转换和/或价值必须增加,以查看投资回报。在寻求通过实验改善观众参与时,度量标准的选择可能有点复杂。每个产品都有一组KPI,实验旨在增加,但我们还专注于更接近更改的驾驶指标,例如越来越多的特定插曲或文章的视图。 BBC旨在增加观众与我们共度的时间,以便他们从许可费中尽可能多地获得价值。因此,我们认为我们的努力以及我们的实验计划旨在整体增加的努力。

在优化内报告

虽然我们大多数实验的主要指标应该是时间花费,但我们目前正在使用代理来完成测试。我们可靠地跟踪在我们的分析中花费的时间,但目前没有在优化的情况下设置此度量标准。例如,在iPlayer上,我们跟踪播放并在优化内完成并使用它们来结束测试,然后通过我们的分析集成度过花费时间。我们这样做是因为优化的统计引擎提供了一种更先进的机制,用于检查测试的统计显着性:

1)顺序测试

统计引擎使我们能够不断查看我们的测试结果,并对关于是否结束测试的有效决定,或者将其留给更长时间运行。对于我们的分析工具中的相同分析,我们必须在开始之前计算测试持续时间,并仅在提交的测试持续时间结束时检查意义。

运行时间计算转换度量的输入输入

此计算的问题是您需要知道您在执行之前的测试结果是什么。如果您侧重于增加收入,您可能会知道您需要哪些升降机,以便您为您投资制定变化而导致的变种。当您的测试目的是增加参与和了解您的观众时,有时可以计算最小可检测变化,但有时可以在黑暗中刺。如果更改低估了,您可能会错过检测到较小但仍有统计上的显着提升,并且如果更改高估了您的测试效率低效,因为您已将其运行超过建立结果的时间。参与度量测试的计算比这更复杂,因为需要考虑每个浏览器触发的事件数量的方差,这可以增加更不确定性。

2)虚假发现率控制

在BBC,我们将实验运行到95%的意义。这意味着在每20个统计上显着的结果中,我们看到的每20个都会是假的。但是,如果我们在我们的分析工具中衡量若干变体的几个指标,那么看到假阳性的机会的可能性远远超过5%。而不是控制单个比较的错误率,而是优化使用 虚假发现率控制 这是一种方法,使整体实验将整体错误率降低5%。

报告我们分析工具的实验

虽然我们在优化内保持了我们的考试的主要指标,但我们已经与我们的分析工具设置了集成,以便我们可以利用我们在那里跟踪的详细时间。我们还将其潜入测试结果并了解结果背后的主要驱动因素是:

·按类别分解的文章视图

·扮演具有拖车的剧集

·使用往返旅程

要与我们的分析集成,我们会在实验条目中发送一个事件,并使用实验和变体名称。

对于转换速率,我们可以简单地将浏览器的数量和独特的转换插入Excel计算器,以检查统计上有显着差异。我们的大多数指标都看出总计或连续变量,其中浏览器之间的方差是有意义的贡献因素。由于我们经常在每个测试中拥有超过100万浏览器,我们的文件对于Excel来说太大了,我们使用r来计算此值。

使用R计算意义的关键特征

不要使用细分

在分析中设置测试报告的常见缺陷是根据它们所处的经验将数据组织到段中。根据您的设置设置段的选项,您可能包括在激活测试之前发送浏览器的操作因此包括无关的数据。要解决此问题,我们将测试变体标签应用于所有事件,然后首次发送并将其用作报告中的参数,以便仅包含测试激活后的操作。

删除异常值

虽然我们自动过滤内部IPS和任何看起来像BOT的任何东西,但仍有极端行为的情况。在普通的分析报告中,这些将几乎没有任何差异并且可以忽略。当我们与另一个经验的平均值进行比较时,这些可能对整体结果和意义产生影响。出于这个原因,我们删除了从平均值的3个标准偏差之外的任何数据点,并且随着我们的数据通常不分布,我们检查删除了哪些百分比的数据。如果从计算中删除超过5%的数据,则我们将手动删除异常值。

从测试偏向零的测试的数据示例

如上所示,我们的数据通常可以在零上偏斜 - 例如,查看查看曲棍球文章的浏览器。因为我们经常在每个变体中有超过一百万个访客,我们仍然可以使用一个  T-Test. rather than a Mann-Whitney-Wilcoxon 将推荐用于更小的样本尺寸的测试。

计算测试持续时间

尽管在任何可能的我们使用相关的指标时,可以在优化的情况下进行明确的实验,但在某些情况下我们只能根据花费的时间结束。这种测试的一个例子正在改变iPlayer Radio内的现场播放体验,其中花了流直播的时间是唯一的成功度量。对于这些情况,我们确保在我们开始实验之前已经计算了测试持续时间。这是通过计算每浏览器每周花费一周的数据的标准偏差来完成的 - 通常只是前一周,除非这是一个意味着浏览器表现得不同的大事。然后我们 计算测试的时间长度应该 在几周内运行,因为我们的产品在周末在一周内有不同的用途,这意味着只有本周部分的部分运行不会给我们全部图片。我们只在测试持续时间计算器指定的数周后检查结果。

用于T检验的测试持续时间计算

未来发展方向

目前我们正在使用我们的分析中的数据下载来运行R,但我们通过创建Alteryx工作流程来使得更有效,以便通过API调用访问数据并在单击按钮时自动处理数据。这将使业务分析师和产品经理能够计算重要性,而不是必须依赖分析师的可用性。

我们还发送有关测试变量的信息,以某人进入红移,使我们能够分析由我们的数据科学团队创建的细分分解的结果。这有时可能导致后续测试,我们根据我们的观众的细分来定位我们的变体。

我们目前还探讨了将数据花费的方式实现了优化,以便我们可以充分利用其统计引擎来结束测试,并衡量实验对我们主要的KPI的总体影响。然而,由于BBC消费量是长形音频和视频,它需要类似于我们准确测量它的AV心跳的东西。目前,我们将依靠我们的分析集成来帮助我们丰富我们的报告和了解参与。

我们的下一个报告挑战将衡量编辑测试的成功。我们目前正在建立功能以优化,使编辑器能够在其编辑工具中设置用于图像的图像,这最终将扩展到标题和标题。我们的目标是对编辑测试具有很高的竞价,并且希望编辑能够不仅可以看到单个实验的结果,而且还可以通过整体测试添加的值。

 优化X.