AB实验:科学归因与增长的利器
上QQ阅读APP看书,第一时间看更新

2.4 实验分析和评估的3个问题

在实验分析和评估环节存在的问题更多,也更加难以解决,这部分的问题往往更加个性化和多样化。前面2.1~2.3节谈到的问题,比如实验参与单元数量、随机分流、指标体系等问题可以通过建设实验平台等工具进行规避、监控和解决。实验分析和评估是针对单个实验的,每个实验从目标到指标都有自己的不同之处,不仅需要进行系统化的处理和规范,也需要具体问题具体分析。分析过程中需要对实验设计、产品特性、数据指标以及统计分析的理解相对透彻,才能更好地深入实验评估。分析和评估相关的问题总结归纳起来主要有以下3个。

1.对于统计结果理解是否正确

●如何解读实验结果中P值、置信度、置信区间等的关系?

●实验得出的相对提升,究竟是一个自然的波动还是真实的实验提升?

●实验参与单元的数量是否足以检出想要的实验效果?

●实验统计的power值是否充足?

●实验数据统计精度是否可以检测出业务的提升?

2.实验分析的过程是否正确

●在实验过程中有没有进行AA实验?

●在实验过程中有没有进行SRM测试?

●在实验过程中有没有偷窥实验?

●实验分析过程中,是否存在幸存者偏差、辛普森悖论等问题?

●局部实验的结果如何推导为全局提升量,转化过程是否正确?

3.实验分析结果的外推是否正确

如果前面实验中的每一个环节都没有问题,实验组的效果是正向的,那么实验决策决定将这个实验全量(也称发布)到所有用户。这个环节一般来说没有太大难度,在一些特定情况下会有问题,即实验结果被推广到实验的设置之外,不再有效。

●群体外推:将结果推广到实验群体之外,在一个子群体上进行实验,并假设对整个群体的影响是相同的。

●时间外推:同样危险的是在实验时间范围之外推广,因为不能确保长期影响和短期影响是相同的。

通常受AB实验机会成本的限制,一般实验运行不超过两周,而进行全量实验意味着这个策略会长期作用在线上,一两周的效果是否等于1个月甚至6个月后的效果是不确定的。当进行AB实验时,除了选择正向的策略外,也需要衡量这个策略长期影响的大小。因为实验相关人员希望得到的结果是“如果我们使用某个策略,指标X将在下个季度增长∆”。这种说法隐含地假定在一个两周长的实验中,测量的影响会持续一个季度,当实验效果是时间依赖时,这显然是不正确的。更为复杂的是,并不是所有的实验指标都会在实验中显示和时间的相关性。

如果没有自动化的检测手段,即使是最有经验的实验者,也很难筛选出数千个指标,寻找与时间相关的实验效果。对于有哪些常见的时间依赖的实验效果,如何发现它们,以及如何评估长期实验效果,我们将在第9章详细讨论。

上面介绍的实验分析问题在很多AB实验中都没有被很好地回答,它们在AB实验中特别容易出现,并影响实验结果,最终得到的是一些错误的解读和结论。统计一个数字容易,得到可信可靠的实验结论是不容易的。我们可以很容易地统计出B组策略比A组策略的点击率高2.7%,B组策略上线之后真的可以将点击率提高2.7%吗?如果没有实验系统以及科学的实验方法,那么很难保证最终效果。

参与AB实验的人大多遇到过一个令人头疼的问题:实验的结果是正向的,全量上线后大盘数据却没有涨。这是一个复杂的系统问题,可能有多种多样的原因,除了我们上面谈到的那些影响AB实验的问题外,还有一个原因就是统计本身的概率问题。因为我们采用的是统计中的假设检验来判断实验结果,本身就存在犯错误的概率。比如我们采用95%的置信度,那么犯第一类错误的概率是5%(AB实验中,A组没有效果,而实验系统判定A组为有效果的错误是第一类错误),犯第二类错误的概率最高有95%。

实验系统中,用户设置95%的置信度,此时需要承担5%的第一类错误风险。在一切都正常的情况下,A组实验有效果,全量上线之后没有效果的风险有5%。这个情况无法避免,大约20次实验中就会出现一次。换句话说,如果20、30次实验中出现了1~2个实验,虽然实验效果正向,但是全量后没有效果,其实这是一个正常现象,在可以接受的范围内。如果做了不到10个实验,就出现了2~3个以上实验效果正向,全量后没有效果的情况,那么实验方法和系统大概率是有问题的,而且问题大概率来自本章讨论的这些问题。在第3~9章我们会针对这些问题产生的原因、如何识别、如何避免和处理展开详细讨论。