Optimizely Intelligence Cloud:如何使用统计引擎更智能、更快速地进行 A/B 测试

优化统计引擎和 A/B 测试策略

如果您想运行一个实验程序来帮助您的业务测试和学习,您很可能正在使用 优化智能云 – 或者你至少看过它。 Optimizely 是游戏中最强大的工具之一,但与任何此类工具一样,如果您不了解它的工作原理,则可能会错误地使用它。 

是什么让 Optimizely 如此强大? 其功能集的核心在于第三方工具中最明智和最直观的统计引擎,使您能够更加专注于实时进行重要的测试——而无需担心会误解您的结果。 

就像传统的医学盲研究一样, A / B测试 会随机显示不同 治疗 向不同的用户展示您的网站,然后比较每种治疗方法的疗效。 

统计数据然后帮助我们推断该治疗在长期内的有效性。 

大多数 A/B 测试工具依赖于两种类型的统计推断之一:频率统计或贝叶斯统计。 每个学校都有不同的优点和缺点——频率统计需要在运行实验之前固定样本大小,而贝叶斯统计主要关心做出良好的方向决策,而不是指定任何单一的影响数字,举两个例子。 Optimizely 的超能力是,它是当今市场上唯一可以采取 两全其美 的方法。

最终结果? Optimizely 使用户能够更快、更可靠、更直观地运行实验。

但是,为了充分利用这一点,了解幕后发生的事情很重要。 这里有 5 种见解和策略,可让您像专业人士一样使用 Optimizely 的功能。

策略1: 了解并非所有指标都是平等的

在大多数测试工具中,一个普遍被忽视的问题是,作为测试的一部分添加和跟踪的指标越多,由于随机机会,您就越有可能看到一些不正确的结论(在统计学中,这称为“多重测试问题” ”)。 为了保持其结果的可靠性,Optimizely 使用一系列控制和更正来尽可能降低发生这种情况的几率。 

当您在 Optimizely 中设置测试时,这些控制和更正有两个含义。 首先,您指定的指标 主要指标 将最快达到统计显着性,所有其他条件不变。 其次,添加到实验中的指标越多,后期指标达到统计显着性所需的时间就越长。

在计划实验时, 确保您知道在您的决策过程中哪个指标将成为您的真北,并将其作为您的主要指标。 然后,通过删除任何多余或无关紧要的内容来保持指标列表的其余部分精简。

策略2: 构建您自己的自定义属性

Optimizely 非常擅长为您提供多种有趣且有用的方法来细分实验结果。 例如,您可以检查某些处理方法在桌面与移动设备上的表现是否更好,或者观察不同流量来源的差异。 不过,随着您的实验计划的成熟,您很快就会希望有新的细分受众群——这些细分受众群可能特定于您的用例,例如一次性购买与订阅购买的细分,或者像“新访问者与回访者”(其中,坦率地说,我们仍然无法弄清楚为什么没有开箱即用)。

好消息是,通过 Optimizely 的 Project Javascript 字段,熟悉 Optimizely 的工程师可以构建任意数量的有趣的自定义属性,访问者可以根据这些属性进行分配和细分。 在 Cro Metrics,我们构建了许多库存模块(例如“新访客与回访者”),我们通过他们的项目 Javascript 为所有客户安装这些模块。 利用这种能力是拥有合适技术资源来帮助他们执行的成熟团队与努力实现实验的全部潜力的团队之间的关键区别。

策略3: 探索 Optimizely 的统计加速器

一个经常被夸大的测试工具功能是能够使用“多臂强盗”,这是一种机器学习算法,可在实验过程中动态改变流量分配位置,将尽可能多的访问者发送到“获胜”尽可能变异。 多臂强盗的问题在于它们的结果不是长期性能的可靠指标,因此这些类型的实验的用例仅限于促销等时间敏感的情况。

不过,Optimizely 为更高计划的用户提供了一种不同类型的强盗算法——统计加速器(现在被称为强盗内部的“加速学习”选项)。 在此设置中,Optimizely 不是尝试将流量动态分配给性能最高的变体,而是将流量动态分配给最有可能最快达到统计显着性的变体。 这样,您可以更快地学习,并保留传统 A/B 测试结果的可复制性。

策略 #4:将表情符号添加到您的指标名称中

乍一看,这个想法可能听起来不合时宜,甚至是愚蠢的。 但是,确保您阅读正确的实验结果的一个关键方面是确保您的听众能够理解问题。 

有时尽管我们尽了最大的努力,指标名称还是会变得混乱(等等——当订单被接受时,或者当用户点击感谢页面时,这个指标会触发吗?),或者一个实验有太多的指标,上下滚动结果页面导致总的认知超载。

将表情符号添加到您的指标名称(目标、绿色复选标记,甚至大钱袋子也可以)可以使页面更易于扫描。 

相信我们 - 读出结果会容易得多。

策略5: 重新考虑您的统计显着性水平

结果在 Optimizely 实验的上下文中被认为是决定性的,当它们达到 统计学意义. 统计显着性是一个严格的数学术语,但本质上它是您的观察结果是两个群体之间真正差异的结果的概率,而不仅仅是随机机会。 

Optimizely 报告的统计显着性水平“始终有效”,这要归功于一个名为 顺序测试 – 这实际上使它们比其他测试工具更可靠,如果您过早阅读它们,它们很容易出现各种“偷看”问题。

值得考虑您认为对测试程序重要的统计显着性水平。 虽然 95% 是科学界的惯例,但我们正在测试网站更改,而不是疫苗。 实验世界中的另一个常见选择:90%。 但是,为了更快地进行实验并测试更多想法,您愿意接受更多的不确定性吗? 您可以使用 85% 甚至 80% 的统计显着性吗? 随着时间的推移,有意保持风险回报平衡会带来指数级红利,因此请仔细考虑这一点。

阅读有关 Optimizely 智能云的更多信息

在使用 Optimizely 时,牢记这五个快速原则和见解将非常有帮助。 与任何工具一样,它归结为确保您对所有幕后自定义有很好的了解,因此您可以确保有效地使用该工具。 通过这些理解,您可以在需要时获得您正在寻找的可靠结果。 

你觉得呢?

本网站使用Akismet来减少垃圾邮件。 了解您的数据如何处理.