自动化|Martech 营销自动化从 AB 测试开始( 三 )

回到刚刚的例子，我们就可以得知，μ 的真实取值有 95% 的可能落在 [1.5%，8.5%] 之间。
8. 置信度在实际操作中，会遇到实验结论显示新策略有用，但实际上全量发布新策略后没用。
在统计学中称为第一类错误，用显著性水平 ( α ) 来描述实验者范这一类错误的概率，置信度 = 1 – α，当某个实验结论显著性指标 α < 5%，则置信度 > 95%，我们认为这个实验结论指标大概率是可信的，系统有超过 95% 的信心确认这个实验结论是准确的。
在 AB 测试中，由于只能抽取流量做小样本实验。样本流量的分布与总体流量不会完全一致，这就导致没有一个实验结果可以 100% 准确，即使数据涨了，也可能仅仅由抽样误差造成，跟我们采取策略无关。
在统计学中，置信度的存在就是为了描述实验结果的可信度。
9. 校验灵敏度 ( MDE )实际操作中，会遇到新策略其实有效，但实验没能检测出来。
在统计学中称为第二类错误，用 β 来描述实验者范这一类错误的概率，统计功效 = 1 – β，统计功效表示如果新策略是有效的，有多大概率在实验中能够检测出来。通常认为统计功效 > 80% 为有效检测。
通过设置 MDE，并与新策略的目标提升率进行比较，来避免实验在灵敏度不足的情况下被过早做出非显著结论而结束，错失有潜力的新策略。MDE 越小，意味着要求测试的灵敏度越高，所需的样本量也越大。
如果 MDE 设置过于精细，不仅会浪费不必要的流量，同时实际收益可能不能弥补新策略的研发和推广成本。灵敏度不足，比如预期 1% 就达标，但实验灵敏度仅能检测 5% 及以上，会导致错失有潜力的新策略。
三、AB测试的魅力何在AB 测试究竟有什么魅力，能够为企业带来如此大的收益，被各大互联网公司视为法宝。
一方面 AB 测试只用整体流量中的一小部分进行实验，避免了一个错误决策对整个公司用户的严重影响，另一方面又能够依靠数据对每个特征进行影响力量化，使得我们可以以较小的风险对新特性进行评估，积极试错积累经验，并且这个方法有能力排除其他因素（如同时开发的其他特性、时间因素等）的干扰；除了“好’或者‘不好“，也能够给出定量的结果。
之所以 AB 测试能够用小部分流量进行抽样，并量化误差，得到相对准确的预测结论，根源在于中心极限定理的存在。中心极限定理定告诉我们，如果我们从总体流量里不断抽取样本，做无数次小流量实验，这无数次抽样所观测到的均值，近似呈现正态分布。
这个分布以真值（所有抽样的平均值）为中心，抽样均值越接近真值，出现的概率就越大；反之均值越偏离真值，出现的概率就越小。
对于一个待投放的营销素材而言，假设以消费者点击率为实验指标，只要小流量抽样次数足够多，可以得到一个正态分布图，抽样次数越多，正态分布均值越趋近于真实的消费者点击率。
开启实验前，哪一个版本表现更好往往是未知的。传统的 AB 测试依赖于统计显著性的经典假设检验，为对照版本和实验版本分配定额流量，一般不允许在实验期间变更每个版本的流量，因此该类实验的缺陷比较明显，即便已发现实验版本明显优于对照版本，实验期间我们还需要在对照版本上继续花费流量直至实验结束，以便获得具有统计学意义的结论。
但是在广告投放、营销活动推送等场景下，运营人员期望尽快获得最大收益。此种场景就需要考虑如何在快速发现并收敛到高价值素材和不放弃对新素材的尝试这两者之间取得平衡（ EE 问题），以追求收益的最大化。