决策|六大环节，教你如何从0到1搭建一场A/B测试( 三 )

但在实际业务场景中，当我们回收到优胜方案时应尽快发布给全量用户，这样才能扩大试验效果、实现业务的全面增长。另一方面，虽然 A/B 测试的目标是验证某个优化方案能够提升收入指标、改善用户体验，但试验总会伴随着未知、未被考虑到的风险，就有可能出现与假设截然相反的结果。因此，快速分析定位原因，及时调整试验就显得尤为重要，“快”是A/B 测试的重要优势，能够快速应用、扩大收益；快速得出结论驱动决策等。
在进行试验设计时，我们需要在实际业务场景和统计理论中做到平衡：既要保证足够的样本量，又要把试验控制在尽可能短的时间内。
（2）如何确定试验所需的最小样本量
样本量并不是越多越好，那么该如何确定样本的数量呢？这里我们需要了解一下中心极限定理，通俗地理解为：只要样本量足够大，无论是什么指标，无论对应的指标是如何分布的，样本的均值分布都会趋于正态分布。基于正态分布，我们才能计算出相应的样本量，作出假设与检验。
样本量计算背后的统计学逻辑较为复杂，计算公式如下：

文章插图
从公式中我们可以看出，样本量主要由 α、Power、△ 和 σ^2 四个因素决定，当确定了这几个变量，也就确定了试验所需的样本量。相关统计原理详见文末「补充阅读」。[1]
目前市面上有很多样本量计算工具，其背后的统计逻辑基本一致，这里需要提醒大家的是，大部分工具都只能计算比率类指标，而均值类（绝对值类）指标的计算需要用到历史数据，通常只能利用公式来进行计算。

文章插图
4. 确定试验运行时长只要试验结果显著，并且符合最小样本量，是否就可以停止试验了呢？答案是否定的。除了最小样本量之外，我们还需要考虑试验指标的周期性波动以及新奇效应影响。
（1）周期性
在实际业务运行过程中，往往需要考虑周期性带来的指标变化。比如，旅游行业在周末的用户访问量明显高于工作日；而办公软件的各项指标都证明在节假日的使用频率远低于工作日。因此，当需要考察的指标自身带有周期性特征时，那么在试验中就必须要考虑到周期性影响，不能单纯地根据结果显著性来做决策。我们通常会建议客户在合理的试验时间内至少包含一个完整的数据波动周期。
（2）新奇效应
在试验的初始阶段，可能会产生一些明显的效应，并在接下来的一段时间内趋于稳定。原因在于刚上线新策略时用户的兴趣值较高，从而引发新奇效应；随着时间推进，用户的新奇感会逐渐消失。所以，在做 A/B 测试时，我们需要评估引入的新策略能否引发新奇效应，从而判断当获得显著结果时，是否需要延长试验周期以得到稳定的结果。
四、运行试验并获取数据虽然试验上线前我们已经做了充分的测试工作，但仍需要验证试验是否按照预期的设定正常运行。其中以下两项工作需要重点验证：

分流验证：分流比例和预期设定是否一致，不同分组策略是否正常展示，用户有无跳版本等。
数据验证：缺少有效、准备好的评估数据，再多的试验也是徒劳。

在确保试验正常运行的情况下，我们还需要对不同分组的数据进行观察分析，避免因为设计缺陷或者引入功能 bug，造成重大业务损失。
五、结果分析A/B 测试能够高效驱动决策。在统计学中，会采用 P 值法和置信区间法评估结果显著性，这里我们详细介绍一下使用频率较高的置信区间法。