因果推断与机器学习
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1.2 潜结果框架

潜结果框架(potential outcome framework)又被称为Neyman-Rubin因果模型[10-11]。因为其简单易用,所以它在实践中常常被用来解决因果推断,尤其是因果效应估测的问题。下面先定义潜结果。

定义1.11 潜结果。

考虑两个随机变量TY,当我们研究因果效应TY时,如果处理变量T=t,单位i的潜结果可以被写成。它代表单位i在处理变量T=t时的结果变量的值。

注意,与结构因果模型不同,潜结果框架首先定义了一个个人级别的因果量——潜结果。而在潜结果框架中,因果量是指那些含有潜结果符号的量。有了潜结果的定义,就很容易定义个体因果效应(ITE)。

定义1.12 个体因果效应(潜结果框架)。

假设考虑处理变量T ∈ {0,1},结果变量Y ∈ ℝ:单位i的ITE就是当这个单位在实验组和对照组时所对应的两个潜结果的差,如式(1.12)所示:

然后可以根据ITE的定义延伸出其他的因果效应的定义。

定义1.13 条件因果效应(潜结果框架)。

特征(协变量)的取值为X=x的亚群上的条件因果效应即是ITE在该亚群上的期望,如式(1.13)所示:

定义1.14 平均因果效应(潜结果框架)。

平均因果效应是ITE在整体上的期望,如式(1.14)所示:

相似地,也可以定义ATT和ATC。在此不再赘述。

有了这些基础后,就很容易从潜结果的定义出发来理解因果推断问题面临的挑战,即统计学家常常会提到的缺失数据的问题(missing data problem)。更详细地讲,就是在数据中(无论是观测性的还是由随机实验得到的),对于每一个单位,往往只能观测到一个潜结果。而在潜结果框架里定义的因果效应都是需要两个潜结果才可以计算的。比如,在式(1.12)中,对于单位i,需要观测两个潜结果。可是在数据中,一个单位i只能出现在对照组或者实验组中,不可以同时属于这两个组。所以只能观测到一个结果Yi,如式(1.15)所示:

这个观测到的结果Yi也常常被称为事实结果(factual outcome),而那些没有被观测到的结果则是反事实结果(counterfactual outcome)。得益于潜结果的个人级别的定义,反事实在潜结果框架中拥有非常简单而自然的定义。ATE和CATE的期望形式在有限样本(finite sample)的情况下可以被写成如式(1.16)所示的平均值:

其中,Nx)代表满足特征取值Xi=x的单位i的数量。

接下来介绍潜结果模型中的因果识别。与结构因果模型中PY|do(T=t))和PY|T=t)的区别类似,在潜结果模型中,PYt)和PY|T=t)=PYt|T=t)之间也存在很大区别。注意,前者的潜结果没有下标i,表示所有的单位在处理变量取值为t时的潜结果的分布。而后者是那些被观测到的处理变量取值为T=t的单位的潜结果的分布。其中,等式PY|T=t)=PYt|T=t)用到了潜结果框架中常见的一个假设,即一致性(consistency)。我们常说因果推断就是一门寻找合理假设的科学,因为因果识别总是依赖于因果的假设。这也就是哲学家Cartwright所说的“no cause in,no cause out”。潜结果模型做到因果识别最常见的方法就是基于以下几个假设。

定义1.15 个体处理稳定性假设(stable unit treatment value assumption,SUTVA)。

个体处理稳定性假设包含以下两部分。

• 明确的处理变量取值(well-defined treatment levels):对于任何一对单位(个体)ij,如果Ti=Tj=t,则意味着这两个单位的状态是一模一样的;

• 没有干扰(no interference):一个单位被观测到的潜结果应当不受其他单位的处理变量的取值的影响。

用本章的例子来讲,假设考虑T=1~5分别代表1~5星的评分,那么明确的处理变量取值要求Ti=1和Tj=1都代表餐厅评分为1星,这一点不随着餐厅的变化而变化。而没有干扰这个假设则常常是对真实世界的一种简化。它意味着麦当劳的客流量仅由麦当劳自己的评分决定,而不考虑同一区域肯德基的评分对麦当劳的客流量的影响。正如我们在结构因果模型的局限性中提到的那样,潜结果模型的常用假设SUTVA排除了干扰的存在,也就意味着它在使用SUTVA时无法解决干扰的问题。但如果我们不假设SUTVA,潜结果模型是可以用来解决有干扰的因果推断问题的。比如在二分实验(bipartite experiment)[12]中,我们会考虑一类单位(如电商网站上的产品)上的处理变量(如打折与否)对另一类单位(如电商网站上的买家)的结果变量(如购买行为)的干扰。而在该工作中,作者也是基于潜结果模型进行因果效应估测的研究的。

接下来介绍潜结果框架中常用的第二个假设——一致性假设。下面是一致性的定义。

定义1.16 一致性(consistency)。

一致性指一个单位被观测到的结果(事实结果)就是它的处理变量被观测到的取值所对应的那个潜结果。在考虑T ∈ {0,1}的情况,即满足式(1.15)。

现在我们应该可以理解为什么一致性会使成立。这是因为在知道Ti=t的情况下,观测到的结果Yi一定就是潜结果。在这两个假设的基础上,如果再引入强可忽略性假设,就有了在潜结果框架下最基础、最常用的一个因果识别的方法。强可忽略性又被称为非混淆(unconfoundedness)。接下来给出强可忽略性的定义。

定义1.17 强可忽略性。

强可忽略性一般包括两个条件。

第一,以所有观测到的特征或者一部分特征(X)为条件,潜结果与处理变量相互独立,如式(1.17)所示:

第二,重叠(overlapping),指在产生数据的处理变量分配机制中,任何一个可能的特征的取值既可能被分配到实验组,也可能被分配到对照组,如式(1.18)所示:

接下来就可以通过简单的数学推导实现潜结果框架下CATE的因果识别,如式(1.19)所示:

其中,第一个等式是CATE的定义(见式(1.13))。第二个等式基于期望的性质(差的期望等于期望的差)。第三个等式用到了强可忽略性中的条件独立,即式(1.17)。第四个等式用到了一致性,即被观测到的结果与其对应的潜结果相等。最终成功去掉了CATE定义中的潜结果符号,使其等于两个统计量的差,也就意味着可以直接从数据中估测CATE。这就达到了因果识别的目的。

而从实际出发,要使我们能够从观测性数据中估测期望E[Y|X=xT=1]和E[Y|X=xT=0],重叠(见式(1.18))是必要的。有了重叠,才能保证在有限样本的情况下,当整体足够大、单位足够多时,对每一个特征的取值x,可以观测到在实验组和对照组中都存在特征取值为x的单位。

最后,对结构因果模型和潜结果框架进行一个简单比较。在文献[13]中,Pearl提到了在一定条件下两种框架的等价性。单一世界干预图(single world interention graphs,SWIG)则被提出来系统性地统一化结构因果模型和潜结果模型[14]。从实际角度出发,比起需要考虑所有变量间的因果关系的结构因果模型,潜结果模型往往在因果推断问题中用起来更方便。要利用潜结果模型做到因果识别,往往只需要遵循某种范式。比如,利用前面提到的那三个假设就可以做到因果识别。后面会介绍更多种类的范式来解决当这三个假设不都成立的情况下的因果识别问题。

当然,结构因果模型也有它常用的范式,可以解决因果识别问题,比如,后门准则和前门准则。而结构因果模型因为考虑了所有变量之间的因果关系,因此除了可以做因果推断,也常常被用于因果发现(causal discovey)。因果发现的目的是从数据中学习因果图。我们将在后面章节中详细介绍相关内容。