市值超 1.7 万亿的Netflix是如何做决策的？( 二 ) 作者｜Netflix技术博客译者

文章图片
图3：我们如何判断带有倒置盒子展位的产品体验B对我们的会员来说是更好的体验呢？
为了进行实验，我们从我们的会员中抽取一个子集，通常是一个简单的随机样本，然后使用随机分配将该样本平均分成两组。
“A”组通常被称为“对照组”（ControlGroup），继续接受基本的奈飞用户界面体验，而“B”组通常被称为“实验组”（TreatmentGroup），根据关于改善会员体验的特定假设（下文将详细介绍这些假设）来获得不同的体验。在这里， B组接受倒置的盒子展位。
我们比较A组和B组的各种度量指标值，一些指标将特定于给定的假设。
对于用户界面（UI）实验，我们将研究新特性的不同变体的用户粘性。对于一个旨在在搜索体验中提供更多相关结果的实验来说，我们将衡量会员是否通过搜索找到了更多值得关注的内容。在其他类型的实验中，我们可能会关注更多的技术指标，比如应用程序的加载时间，或者我们在不同网络条件下能够提供的视频质量。

文章图片
图4：一个简单的A/B测试。我们使用随机分配将奈飞会员的随机样本分成两组。 “A”组接受当前的产品体验，而“B”组接受一些改变，这些改变我们认为是对奈飞体验的改进。在这里， “B”组接受“倒置”的产品体验。然后，我们比较两组之间的指标。关键的是，随机分配确保了平均而言，两组之间的所有其他内容都保持不变。
通过许多实验，包括倒置盒子展位的例子，我们需要仔细考虑我们的指标告诉了我们什么。
假设我们查看点击率，衡量每次体验中点击剧集的会员比例。这一指标本身可能是衡量这个新用户界面是否成功的一个误导性指标，因为会员可能只是为了更容易阅读而点击倒置产品体验中的剧集。在这种情况下，我们可能还需要评估有哪些会员随后会选择离开该剧集，而不是继续播放它。
此外，我们还将关注更多的通用指标，这些指标旨在捕捉奈飞为我们的会员带来的欢乐和满足感。
这些指标包括会员与奈飞互动的程度：我们正在测试的想法是否有助于会员在任何特定的夜晚都会选择奈飞作为他们娱乐的目的地？
这还涉及到了大量的统计数据——有多大的差异会被认为是显著的？在一次测试中，我们需要多少个会员才能检测到给定大小的影响？我们如何才能最有效地分析数据？本文会重点放在高层次的直观感受上。
3
保持其他因素不变
因为我们是使用随机分配来创建对照组（“A”）和实验组（“B”）的，所以我们可以确保这两个组中的个体，平均而言，在可能对测试有意义的所有维度上都是平衡的。
例如，随机分配可以确保奈飞会员的平均长度在对照组和实验组之间没有显著的差异，内容偏好、主要语言的选择等也没有显著的差异。两组之间唯一的差异是我们正在测试的新体验，确保我们对新体验影响的估计没有任何偏差。
为了理解这有多重要，让我们考虑另一种我们可以做决策的方式：我们可以把新的倒置盒子展位体验（如上所讨论的）推给所有的奈飞会员，看看我们的度量指标是否有很大的变化。如果有证据表明该改变是积极的或者是没有任何意义的，我们将保留新的体验；如果有证据表明该改变是负面的，我们将回滚到之前的产品体验。
假设我们这样做了（再说一遍——这是一个假设！），并在每个月的第16天将开关切换到上下倒置的体验。如果我们收集到了以下的数据，你会怎么做呢？