船舶越快,风险越来越少。获得优化的推出,为开发人员提供免费功能标志。 建立免费账户



这是我们的产品实验陷阱博客系列中的第四篇帖子,由优化的产品管理总监Jon Noronha编写。看 这里 有关此5部分系列的更多信息。 

到目前为止,在这个系列中,我们已经谈到了可以阻止实验从地面停止实验的隐藏挑战 被统计欺骗, 或者 选择错误的指标。许多人已经克服了这些障碍并建立了一个崭露头角的测试计划。所以在今天的帖子中,我会谈论下一个陷阱:陷入“足够好”。

这是一个流行音乐测验让我们开始:

  • 您的公司去年运行了多少实验?
  • 那些百分比产生了有意义的见解?
  • 今年每个数字的目标是什么?

根据您的尺寸和成熟度,这些数字可以从0-1000 +和5-50%的范围内。尽管如此,我听到的答案是一些版本,“呃…我们真的不知道。“花点时间尝试回答这些问题。如果您没有数据,或者如果您尚未设定目标,那么您在收获实验最大的收益之前,您处于失去蒸汽的危险。

我见过许多团队从“零到一个人”那么挑战,这是第一次将数据驱动的决策带入他们的文化中。他们可能会运行一次性的A / B测试,看一些成功,并开始构建路线图。但是一年或两年后,他们遇到了一个高原,每月运行1-2个实验,结果混合。这似乎足够好,但甚至甚至在真正的实验文化的球场中都没有。

亚马逊的Jeff Bezos喜欢说:“我们的成功是我们每年为每月,每月每周每天进行多少实验的函数。”在微软五年内,我们从几个实验中增加了每周到每周300多个实验。 netflix. 每年运行数百个实验,Airbnb已通过 每月500。对于这些公司中的每一个,实验不仅仅是一种根深蒂固的文化实践 - 这是一个核心竞争性差异化因素。他们不仅仅衡量他们运行的实验数量;他们设定了积极的目标,每年增加它们。

衡量成功

并非每家公司都需要一次运行1000个实验。但要建立一种实验文化,您需要定量的成功措施。当涉及一次性实验时,我们都知道这一点–“正在衡量的是移动”–但我们经常在我们的更大计划的背景下忘记它。

那么成功的正确衡量标准是什么?大多数顶级实验团队使用这两个::

  • 速度: 每个月开始的实验数
  • 洞察率: 推动重大变化对重要指标的实验的百分比

速度捕获实验量。它告诉您组织中的许多想法是有数据验证的,以及组织中有多少人正在采用实验性思想。您在此设置的目标应依赖于团队的大小。如果500 /周的声音疯狂,请尝试将可实现的目标设置为“每3个开发人员每季度1实验”。然后一旦你击中这个目标,它就了。

Insight率捕获了实验的质量。它告诉你你实际上避免了这些实验的频率。请注意,许多团队将选择衡量“赢得率”,但却错过了这一点。防止风险启动并从糟糕的想法中学习它可能是有价值的。例如–在过去的几个月里,我已经看到三家不同的公司做了重新设计,只发现新流量下降了他们的收入>3%。在每种情况下,实验有助于他们赶上下降并建立一个克服它的计划。

最后,确保您有某种方式测量和报告这些指标。这可以像电子表格或白板一样简单,或者是一个专用的解决方案 计划报告。重要的是您衡量这些数字,定期分享,并设置雄心勃勃的目标。

提高速度

如果你这么走了,你可能会思考,“这不足以设定目标!我该如何实际运行这么多实验?来思考它,我们甚至是什么意思在这里'实验'?“要公平:我不是故意暗示只是通过测量你的速度,这个数字将神奇地上升。但我已经看到了,如果你去寻找实验的机会,你会发现它们到处都是。在Bing,我们将实验速度增加一致,每次我们认为我们都会达到限制–但随后,我们会发现一个全新的区域来测试和推动。

当许多人听到“实验”这个词时,他们精神上替代“A / B测试”并带来关于它可能适用的时间和地点的假设。想想更大!有很多类型的实验,它们可以适应开发生命周期的任何阶段。

这不是很多工作吗?好吧,有点–但我发现它引人注目的一些最简单的实验也是最忽视的。例如,大多数产品团队仍然不是使用功能标志的A / B测试。如果您正在启动一个新功能,请尝试将其滚动到50%的用户中,并衡量尚未拥有该功能的控制。与建立这件事的工作相比,这项测试几乎没有额外的努力,但它可以产生丰富的洞察力对你拥有的影响和减轻用户反应的风险。

或采取相同的例子。许多团队在特征标记和分阶段的卷展栏上有能力,但在推出后,他们无能为力推广他们的功能或推动采用。一些最便宜和最有影响的实验采用现有的界面,并巧妙地改变它以驱动发现。例如,如果您通过按钮到达功能–对该按钮进行实验。将其移动,更改措辞,或用“新”徽章或临时弹出窗口引起注意。这些实验是廉价的,并对采用产生重大影响。例如,一个主要的新闻网站向他们的视频添加了持续时间戳,并在观看视频的时间内增加了2倍,这是一个主要的收入驱动程序。

这些错过的机会中的一个共同主题是产品团队将以牺牲他人为代价习惯的测试。产品经理和设计师可能依赖 客户端测试 制作视觉变化的工具,但错过了运行的机会 服务器端实验 在更深的功能上。开发人员可能依赖于家庭成长的功能标记来推出代码,但他们的团队可能会错过机会 远程配置 或者 多变量测试 发布后。寻找在更多地方测试的方法,向上或向下移动技术堆栈以及多个团队来解锁更多机会。

提高质量

随着实验速度升高,质量遭受的自然趋势。你抓住了低吊的水果,找到了大胜利需要更多的努力。新队伍落后,他们重复你可能已经克服的错误。在某种程度上,这种权衡是不可避免的,但您可以申请一些简单的提示来保持质量。

作为一开始,尝试测试更多变种。最好的实验通常不是文字“A / B测试”。相反,它们涉及更多的创造力和风险。当我们提出单一的变化时,我们过早地缩小了我们的机会。特别是,我们经常测试我们“当然”可以赢得的东西,而不是让风险更加大胆,更加不同。

尝试测试完全不同的东西。下次您的设计师提出两个替代方案,不要挑选一个测试–让他们更多地想出三个,然后测试它们。即使您不构建并运行所有选项,刚刚通过头脑风暴替代品的锻炼可以解锁一个大的新想法。

我的同事Hazjier有 研究了相关性 在变化数量和赢利之间,此数据是显着的。研究成千上万的真实实验优化,他发现超过75%的实验只有两种变化。但是,当他看待那些变化的胜利时,这些较窄的实验表现最差。他发现,与一个变体相比,测试四种反对控制的变种几乎可以将胜利率较为两倍,使整体的“见解率”(胜利+损失)以超过50%的最佳率。

如果你没有足够的流量来测试这么多变体怎么办? 我早先的帖子 走过那里的权衡和选择。但是在怀疑时,如果你不测试更多变种,至少是 大胆。在您的堆栈中更深入地进行更大的变化,更接近您正在查看的核心操作。

结论

这些只是推动速度和质量的几个提示。但我想重申,最重要的是为您的程序设定目标并定期测量它。我们无法在谷歌的规模上进行所有测试,但我们都可以更好地进行实验。请记住,目标不仅仅是为了推动转换率,它是采用一种整体运行业务的方式。不要满足于平坦的Ad-hoc实验高原。如果有一件事将测试程序与实验文化分开,则持续搜索嵌入数据和假设思考的方法,并思考产品开发的每个阶段。

查看本系列中的最终帖子: 在团队中失败 

优化X.