上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

贾小双. 社会科学中的因果分析——潜在结果模型、因果网络模型与ABM[M/OL]//赵联飞，赵锋.社会研究方法评论:第1卷.重庆：重庆大学电子音像出版社.

社会科学中的因果分析

——潜在结果模型、因果网络模型与ABM

贾小双[1]

摘要：因果问题是社会科学的核心问题。在因果研究中采取反事实的因果定义已在各学科中达成共识。在这一前提下，当前社会科学的因果分析主要在三大方法论框架下展开：潜在结果模型、因果网络模型和ABM。本文对这三大方法论框架的核心思想及其主要模型和方法进行了回顾，首先按照数据类型和混淆变量的可观测性对倾向值匹配、加权、工具变量、断点回归、双重差分法等传统的模型进行了梳理，并介绍了与机器学习结合的最新进展；接着对因果网络模型的来源和其主要方法——贝叶斯因果图——进行了介绍，并简单阐述了贝叶斯因果图对于揭示横向因果机制的作用；最后对ABM的模型原理进行了介绍，分析了其在识别因果关系上的限制及其用于分析纵向因果机制的前提条件、优势与局限。本文希望通过系统性的梳理来为社会科学研究者了解因果分析方法体系及其前沿进展提供参考。

关键词：因果推理；反事实；潜在结果模型；因果网络模型；ABM

Abstract: Causality is a core issue in social sciences research. The counterfactual definition of causality has reached a consensus in different research fields. Therefore, current causal studies of social sciences are mostly carried out under three frameworks: the Potential Outcomes Models, Structural Causal Models (SCM), and Agent-based Modeling (ABM). This paper reviewed the core concepts of these three methodological frameworks and their main models and methods. We started from reviewing the classical statistical models under the potential outcome framework such as PSM, IPTW, IV, RDD, DID, etc., we classified them by the type of data and the observability of the confounders and then introduced their up to date progress in machine learning. Then we turned to the SCM, after a brief introduction of is history, we reviewed the Casual Bayesian Network, which is one of the most important models under this framework. Further, we introduced ABM and assessed its limitations when doing causal inference and its pre-conditions，strengths and weaknesses when revealing vertical causal mechanism. By systematically reviewing the three framework above, we hope to provide a clear clue for social scientists and help them to keep up with the state of the art methods of causal inference by this.

Keywords: causal inference; counterfactual framework;potential outcome models, Structural Causal Models, Agent-based Modeling

一、引言

寻求事物之间的因果关系是各学科研究的终极目标，而且各学科对因果的定义和因果分析方法已有大量的理论与科学方法论的探讨。随着因果推理方法的发展，研究者越来越强调相关关系和因果关系的差别，并致力于探讨如何在更严格的因果定义下进行因果推理（王天夫，2006；彭玉生，2011；孟天广，2017；Abbott，1998；Doreian，1999；Goldthorpe，2001；Winship & Sobel，2004）。统计学家、图灵奖得主Pearl针对大数据时代人工智能的发展现状提出因果关系的三级阶梯：相关（association）、干预（intervention）和反事实（conterfactuals）。这一组概念很好地阐释了相关关系与因果关系的区别。Pearl指出，当前的大数据分析和人工智能的因果推理大多数停留在相关性的层面，处于因果之梯的最底端，因为研究者仅仅基于概率上的联合分布来回答“是什么”（what is）的问题（例如：如果观察到某种症状，则有多大可能是因为患了某种疾病）；而干预性研究则更进一步，可以通过干预来回答“如果采取某种策略将会怎么样”（what if）的问题（例如：如果吃了药，病情将会发生什么样的改变）；但相关性和干预性研究都不能对因果关系作出推断，而只有在二者的基础上更进一步，能够回答“如果采取相反的策略，结果会有什么不同（what if I had acted differently）”的反事实的问题时，才能推断该策略是否是这一结果的原因（Pearl，2018）。以上这种因果推理的严格定义被称为因果推理的 “反事实框架”（conterfactul framework）[2]。目前，在反事实框架下进行因果推理已成为各学科研究者的普遍共识。

统计学领域的因果推断主要采用两类模型：潜在结果模型（potential outcome model）和因果网络模型（causal graph）。前者通过给出反事实框架下因果效应的数学定义，并通过统计模型量化估计原因对结果的因果效应；而后者是在贝叶斯网络上进行外部干预，既能估计因果效应，也能通过确定多个变量之间的因果关系来反映因果作用机制（苗旺等，2018；Morgan & Winship,2014，2015）。社会科学研究者普遍使用潜在结果模型来进行因果推断，而很少使用因果网络模型。社会科学研究中常见的用于分析截面数据的倾向值匹配（propensity score matching ,PSM）、逆概加权估计（inverse probability weighted estimation, IPWE）、工具变量（instrumental variable，IV）、断点回归（regression discontinuity design，RDD）等方法，用于分析面板数据的双重差分（difference-in-difference，DID）等方法以及随机实验研究，从方法上来看都属于统计学中潜在结果模型的范畴。

近年来，随着计算社会科学的发展，其两大研究范式——社会模拟（social simulation）和大数据分析——也为社会科学的中的因果问题研究提供了新思路。一方面，计算机模拟技术在社会科学中的普及使得学者对因果机制的研究在方法上取得新的突破：基于自主行动者建模（Agent-based Modeling，ABM）的方法逐渐被运用于模拟社会互动与社会现象产生的过程，成为研究社会现象产生的因果机制的重要方法（Epstein，1999，2006；Bianchi & Squazzoni，2015；Bruch & Atwell, 2015；Hedström，2005；Hedström & Ylikoski 2010；Hedström et al.,2009）；另一方面，机器学习等大数据分析技术的发展也使得传统因果推断的统计模型得到进一步丰富和改善（李文钊；2018；Athey & Imbens，2017；Athey et al.，2018）。同时，机器学习领域对图模型（graphical model）的广泛运用也使长期被社会科学家忽略的因果网络模型得以进入社会科学研究者的视野（Morgan & Winship，2014，2015）。

本文尝试对上述社会科学中因果分析的三大方法论体系——潜在结果模型、因果网络模型和ABM——进行系统梳理，希望能够通过回顾其代表性的方法及应用为社会科学研究者选取适当的方法进行因果推断和因果机制分析提供一些参考。

二、潜在结果模型

（一）因果推断的反事实框架与潜在结果模型

社会科学的因果推断需要采用反事实的框架在定量研究中展开。最早使用“反事实”的术语来定义因果关系的是哲学家休谟（Hume，1748）。哲学家密尔的因果推论逻辑中的差异法也暗含反事实的思想（Mill，1843；Mackie, 1973,1980；Goodman, 1947；Lyon, 1967）。这些零碎的思想最终在刘易斯的著作中被整合，形成了哲学上的反事实因果关系理论（counterfactual theories of Causation）（David Lewis,1973,1986）。哲学上的反事实因果分析框架主要是对一般性的因果关系进行讨论；在这一思想的基础上，统计学和社会科学发展出了对特定因果关系进行推理的反事实框架（Neyman, 1923;Rubin,1974; Fisher,1935，1971;Morgan & Winship,2014; Winship & Morgan,1999）。

在社会科学的反事实框架中， “事实”是指在采取某种特定的干预或处理（treatment）T的情况下观测到的Y的状态或结果；而“反事实”是指采取与T相反的干预或处理（通常是不处理）时Y的状态或结果。反事实框架下因果作用的定义是：在其他因素保持不变的情况下，接受处理和未接受处理在结果上的被观测到的净差异（net difference）在多大程度上可归因于该处理（蒋建忠，2017），即处理效应（treatment effect）。但由于人不能两次踏入同一条河流，对于同一个个体，我们只能观察到事实，而观察不到反事实。例如，当我们研究上大学对于收入的效应时，我们只能观察到上大学的人上了大学后的收入，而观察不到假如这些人不上大学的收入。反事实无法观测的问题使得我们难以对因果作用作出推断。

统计学家Neyman(1990[1923], 1935)使用潜在结果（potential outcome）的概念提出了实验研究（experimental studies）中反事实因果作用的形式化定义；Rubin（1974, 1977, 1978, 1980a, 1981, 1986, 1990）将这一定义推广到观察性研究中（observational studies），形成了统计学中因果推断的潜在结果框架[3]（potential outcome framework，也常被称为Neyman-Rubin Causal Model）。潜在结果模型解决了因果推断中反事实无法观测的问题，成为统计学、社会科学因果推断最主要的方法，因此，社会科学中“因果推断的反事实框架”通常将“潜在结果模型”称为“因果推断的反事实框架”（李文钊，2018）[4]。

潜在结果模型的核心思想是，假设我们要研究某种干预Wi∈{0,1}的处理效应，W=1表示接受处理，W=0表示未接受处理，个体i在这两种处理状态下有两个潜在的结果：接受处理后的结果Yi(1)和不接受处理的结果Yi(0)，我们观察到的结果Yiobs可以表示为Yiobs=Yi(Wi)=Wi·Yi(1)—(1—Wi)·Yi(0); 个体i的处理效应可以表示为Ti=Yi(1) —Yi(0)。由于对于同一个人只能接受一种处理（Wi=1 或Wi=0），我们只能观察到一种处理状态下的结果，而反事实的结果我们是观察不到的，是一个缺失值（missing value），因此个体的处理效应是无法被直接计算的。而统计学和社会科学关注的是总体层面的特征和规律，我们可以利用潜在结果来定义总体平均处理效应T（average treatment effect，ATE）：

T=E[Yi(1)—Yi(0)]=E[Yi(1)]— E[Yi(0)]

潜在结果模型有一个重要假设——个体处理值稳定假设(Stable Unit Treatment Value Assumption, SUTVA)，SUTVA假设是指任意一个个体的潜在结果不随其他个体是否接受处理而改变；并且无论干预分配机制如何，对每一个个体和每一种处理只有一个潜在结果[5]。也就是说，张三上大学后的收入与李四上不上大学没有关系，且无论张三是怎么上了大学的，他接受“上大学”这个处理只会有一个收入值，反之亦然。这一假设为我们填补反事实的缺失值提供了可能：假设所有人的收入只受他上不上大学的影响而不考虑其他因素，那么所有上了大学的人的收入都相同，为Y(1)，所有没上大学的人的收入也相同，为Y(0)；在这种情况下，Y(1)和Y(0)的取值恒定，不受是否接受处理（Wi取值）的影响，即满足Yi⊥Wi；在这种情况下，根据SUTVA假设，我们便可以通过观察到的Yj(0)来补充缺失的 Yi(1)（即用没上大学的收入来填补上大学的人加入没上大学的收入），从而得到个体i在上大学Wi=1和没上大学Wi=0两种情况下的潜在结果

然而在现实中，这一理想情况不可能得到满足，因为除了是否上大学外，一个人的收入还与一系列其他因素X（如性别、政治面貌、社会网络资源、个人能力、勤奋程度等等）有关，并且这些因素不仅影响观测到的结果Yiobs（个体i的收入），也对处理的分配机制（个体i是否上大学）产生影响，被称为混杂因素（confounders，也常被称作混淆变量）。处理的分配机制（Assignment Mechanism）是潜在结果模型的一个重要内容，分配机制直接决定哪些研究对象接受干预，哪些不接受干预（作为控制），也就直接决定了我们所观察到的潜在结果；而SUTVA假设要求潜在结果不受处理分配机制的影响，因此，Rubin提出了潜在结果模型的另一个重要假设——干预分配机制可忽略性假设（Ignorable Treatment Assignment Assumption），可忽略的干预分配机制也被称为非混淆分配机制（Unconfounded Assignment）（Rubin，1973）。由于分配机制受到混杂因素X的影响，因此我们需要混杂因素加以控制，使得接受处理和不接受处理的潜在结果不受是否接受处理的分配机制的影响，即Yi⊥Wi| Xi，从而构造潜在结果框架来计算平均因果效应。

随机实验（random experiment）是构造潜在结果框架的有效模式：在理想的随机实验中，我们把研究对象随机地（例如使用抛硬币的方式）分配到两组中，其中实验组(experiment group)接受处理（W=1），而控制组(control group)不接受处理（W=0）,这样就构成了一组潜在结果(Y(0)，Y(1))。由于分组是完全随机的，个体究竟被分在哪一组（或得到多大的实验处理水平）与个体的特征和其他可能影响实验的结果的因素是完全独立的,这样我们就可以把两组的平均结果进行比较，其差异便是这种处理的处理效应（Fisher,1935;蒋建忠，2017；孟天广，2017）。

由于社会科学研究很难进行随机实验[6]，研究者通常使用调查数据、普查数据、行政管理档案、互联网上的记录等观察数据进行研究，而观察数据不是通过随机实验得来，无法保证处理分配机制的随机性，如果忽略影响处理分配机制的混杂因素直接进行因果推断，对因果效应的估计就会产生偏差，即产生社会科学所说的“内生性”问题。统计学、社会科学的诸多学者对如何识别混杂因素以及如何解决混杂因素所带来的内生性问题进行了讨论，并通过对干预分配机制可忽略性假设成立的前提条件进行设定，发展出了丰富的基于非混淆机制假设的潜在结果模型，使得我们可以在观察数据中进行因果推断。下面我们将对常见的用于观察研究的潜在结果模型进行介绍。

（二）观察研究中的潜在结果模型

目前已有不少文献对使用观察数据进行因果推断的潜在结果模型进行了综述：Winship和Morgan（1999）按照是否包含多个不同时间（时期或时点）的观测值将观察数据分为截面数据（Cross-sectional data）和纵向数据（Longitudinal data），并分别介绍了针对截面数据的断点回归、倾向值分析、Heckman选择模型（selection models）、工具变量方法和针纵向数据的间断时间序列设计(Interrupted Time Series design)等潜在结果模型；陈云松、范晓光（2010）将内生性问题的来源总结为遗漏变量、自选择、样本选择和联立四种偏误，并梳理了解决每一种偏误的模型和方法；胡安宁（2012）对倾向值匹配、工具变量和断点回归这三种常见的因果推论的方法进行对比，突出了倾向值匹配方法的优势；统计学家苗旺等人（2019）介绍了潜在结果模型判别混杂因素的两类准则，并基于混杂因素的可观测性与否分别总结了混杂因素可观测与不可观测两种情况下的潜在结果模型（可观测——倾向性匹配、逆概加权估计估计、双稳健估计（doubly robust estimation）方法；不可观测——工具变量方法和阴性对照变量法）。Athey和Imbens（2017）总结了计量经济学中用于政策效果评估的潜在结果框架下的因果识别策略（identification strateges），详细介绍了断点回归、合成控制法、双重差分法、Manski线性均值模型（linear-in-means models）、实验与观察数据结合等方法，并讨论了这些方法的辅助分析（Supplementary analyses）策略以及这些方法的最新进展。

观察数据中进行因果推断的潜在结果模型有两个任务：第一，基于处理变量将观察数据中的样本分为实验组（treated group）与对照组（untreated group）来构造“准实验”（quasi-experiment）场景，并对影响分配机制的混杂因素进行识别和控制，使得处理分配机制可忽略性假设得到满足（即潜在结果不受处理分配机制的影响）；第二，在此基础上使用回归模型来估计平均处理效应。通过回顾这些模型可以发现，不同模型之间的差异主要体现在模型如何控制混杂因素以保证干预分配机制的随机性。接下来本文将从控制混杂因素的角度来对比分析常见的潜在结果模型的差异（由于这些方法已非常成熟，已有大量文献对其原理及其应用进行了详细且深入的讨论，在此不再赘述，感兴趣可查阅各模型的参考文献）。

1. 倾向值匹配

如表1所示，社会科学中最常使用的倾向值匹配模型是通过对处理组和控制组的样本进行匹配的方式来消除协变量对处理分配机制的影响。倾向值匹配模型的前提假设是所有影响处理分配机制的混淆变量可观测，即认为个体i是否接受处理受到一组可观测的变量X的影响，那么基于Xi可以估计出个体接受处理的概率，即倾向值（propensity score）。倾向值匹配是对倾向值相近但实际接受处理不同的样本进行匹配，使得协变量X在处理组和控制组中的分布达到平衡，从而消除混淆变量对处理分配机制的影响，然后再使用配对后的样本来估计平均处理效应（Rosenbaum & Rubin，1983；胡安宁，2012；Morgan & Winship，2015，郭申阳，2012；Abadie & Imbens，2016）。

表1　对观察数据做因果推断的潜在结果模型

2. 其他匹配方法

倾向值匹配是匹配方法（Matching method）的一种，匹配方法的本质是将在其他特征（混淆变量X）上相似的接受处理和未接受处理的样本进行配对，把未接受处理样本的观测值作为接受处理样本观测值的反事实的潜在结果（Sizemore & Alkurdi，2019）。倾向值匹配是通过使用logistic回归模型估计个体接受处理的概率来作为样本相似性的度量方式，除此之外，也可以使用马氏距离（Mahalanobis Distance）来测量样本的相似性。倾向值匹配和马氏距离匹（Mahalanobis Distance Matching，MDM）都是通过降维的方法将多维协变量降成一维的相似性度量，二者的差别在于当协变量维度过高时，马氏距离不如倾向性匹配的效果好（Rubin, 1973；1980；Rubin, 1979；Feng et al., 2019；Leuven & Sianesi, 2003;）。除降维方式外，也可以使用精确匹配（Exact Matching）的方法在协变量（必须是分类变量）构成的特征空间中一对一匹配；或者使用粗粒化的精确匹配（Coarsened Exact Matching）的方法对协变量的取值进行分层（将连续变量离散化），然后再进行匹配。（Iacus et al., 2009; Stuart，2010；Imbens；2015；Morgan & Winship，2015；对匹配方法的全面总结参见Sizemore & Alkurdi，2019）

3. 倾向值加权

倾向值除了用于匹配外，还可以用来对样本进行加权从而平衡样本在协变量上的分布。个体i的权重Mi为个体倾向值的倒数，计算公式为:Mi=+，其中Ps(Xi)为个体i的倾向值。逆概加权估计（Inverse Probability of Treatment Weighting，IPTW）和双稳健估计（Doubly Robust Estimation）在根据倾向值对样本加权后，使用回归模型来估计平均处理效应（Czajka et al., 1992; Lunceford & Davidian, 2004； Hirano et al., 2003；Bang & Robins，2005；Kreif & DiazOrdaz，2019；苗旺，2018；Stuart，2010；Morgan & Winship，2015）。

4. 工具变量

上述匹配和加权的方法都建立在混淆变量可观测的前提假设下，但这一假设在现实中往往无法满足，现实中往往存在一些不可观测的混淆变量对分配机制和潜在结果产生影响。例如影响一个人上大学常常受到智商和努力程度的影响，而人的收入也可能一定程度上受到智商和努力程度的影响。在这种情况下，匹配和加权模型对上大学对收入的净效应的估计可能是有偏的。工具变量方法可以解决混淆变量U不可观测情况下的因果推断问题。工具变量方法的逻辑是构造一个关于Z→W→Y关系链条，其中Z是工具变量。工具变量需满足仅与处理变量W相关，且与结果Y不直接相关，且与混淆变量U无关。也就是说工具变量不直接影响结果，Z对结果Y的影响只能通过处理状态W来进行传递，此时如果我们可以验证Z对Y的效应是显著的，就能推断出W对Y的局部平均处理效应（local average treatment effect）（Angrist et al.， 1996；Angrist & Krueger， 2001；苗旺等，2018）。但工具变量存在一系列前提假设，研究者很难找到一个适当的工具变量，导致工具变量方法在研究中的使用存在很大的限制（陈云松，2013；胡安宁，2012；李超、求文星，2021）。

5. 断点回归

除工具变量外，断点回归（Regression Discontinuity Design，RDD，也被称为回归中断设计）也可以在含有不可观测的混杂因素的情况下进行因果推断。断点回归的关键在于寻找一个参考变量C，这个参考变量的某一个值C=c可以作为决定个体是否接受处理的临界值。若个体的参考变量大于临界值（Ci > c）则进入处理组（W=1），反之则进入控制组（当Ci < c时W=0），即根据C=c的“一刀切”的方式认为造成了一个“中断”（Discontinuity）。而接近断点C=c附近的个体的其他特征是非常相似的，因此这种划分方式使处理组和控制组的分配十分接近随机实验。如果结果Y也在断点处形成中断，我们可以通过处理组与控制组的Y值的差异来估计W对于Y的净效应。断点回归可以分为两类：第一类是精确断点，其临界值是确定的（Sharp），在临界值一侧的所有的个体都接受了处理，反之，在临界值另一侧的所有个体都没有接受处理。此时，接受处理的概率只有0和1两个取值。第二类是模糊断点，其临界点是模糊的（Fussy），在临界值附近接受处置的概率是单调变化的而非只有0、1两种取值。在一定的假设下无论是哪一类型的断点回归，都可以利用临界值附近样本的系统性变化来研究处置和其他经济变量之间的因果关系。但与工具变量一样，断点回归方法的难点也在于如何寻找一个合适的参考变量（Hahn et al.；2001；Thistlethwaite & Campbell，1960；Imbens & Lemieux，2008；Imbens & Kalyanaraman, 2012；Lee & Lemieux, 2010；Imbens & Rubin,2015；胡安宁，2012）。

6. 双重差分法与合成控制法

以上这些都是针对截面数据的潜在结果模型，而当使用纵向数据时，时间的信息能够帮助我们在一定程度上消除内生性的影响。经典的双重差分法(Difference-in-Difference，DID)假设处理组与控制组拥有相同的线性趋势，因此总体的平均处理效应可以通过两次差分得到：首先分别对处理组和控制组在处理实施前后平均结果进行差分，求得每个组的结果变量Y组随时间增长的量（Tw(1)=Yt(1)w(1)- Yt(0)w(1)，Tw(0)=Yt(1)w(0)- Yt(0)w(0)）；然后再对这两个差值进行差分。由于处理组与控制组拥有共同的线性趋势，因此第二次差分得到的结果便是处理变量的平均处理效应T= Tw(1)— Tw(0)。模型的第一次差分是求自己与自己的差，这样既控制了时间增长的影响，也消除了个体的异质性的影响；而模型对平均因果效应的估计是基于处理组与控制组“增量”的差值，从而避免了个体和时间因素带来的影响，在混杂因素不随时间变化的情况下能够对平均处理效应做出准确的估计（Ashenfelter，1978；周黎安、陈烨，2005；陈林、伍海军，2015； Athey & Imbens，2017）。DID是用于总体的平均因果效应的估计，当研究对象是单个个体时，则可以使用合成控制法（Synthetic Control Method，SCM）进行因果推断。合成控制法的核心思想是使用若干个控制组的样本合成一个在其他特征上与处理组的个体一致的样本，从而构造出处理组个体的反事实来进行因果推断（Abadie & Gardeazabal，2003；Abadie et al., 2010，2014；Athey & Imbens，2017）。

（三）机器学习方法对潜在结果模型的改进

近年来，随着机器学习方法的发展，统计学、计算科学和社会科学的研究者开始使用机器学习方法来助力因果推断（胡安宁，2018）。因果推断在机器学习领域的进展可以归纳为两类，一类是使用机器学习算法来对传统的潜在结果模型进行改进；另一类是在潜在结果框架下结合多种模型的思想发展出新的因果推断的机器学习模型。如前文所述，潜在结果模型进行因果推断可分为两步：控制混杂因素来消除分配机制对潜在结果的影响和对总体平均处理效应进行估计，上文中所介绍的潜在结果模型的这两个部分都可以用机器学习的方法来进行改进。

我们对样本进行匹配和加权是为了平衡协变量在处理组和控制组的分布，机器学习方法通过两种途径来对这一目标进行优化。第一种是提出直接以提高协变量在两组分布的均衡性为目标的匹配算法——遗传匹配（Genetic Matching）（Diamond & Sekhon，2013）[7]和D-AEMR匹配算法[8]（Dynamic Almost-Exact Matching with Replacement）（Dieng et al.，2019）。第二种途径是通过提高对倾向值估计的准确性来间接提高协变量分布的均衡性，目前第二种途径在实际应用中更为普遍。传统PSM和IPTW模型使用logistic回归来估计倾向值，其本质是基于一定特征（协变量X）对个体接受处理的概率进行预测，机器学习模型则十分擅长以预测为目标的任务。理论上所有可用于分类（预测类别）的机器学习模型都可以用来计算倾向值，而且目前已有大量文献使用不同机器学习模型对PS进行预测，并对这些模型的表现进行评估。

Stuart（2010），Sizemore和Alkurdi（2019），Yao等人（2020）， Kreif与 Diazordaz（2019）都对潜在结果模型中的匹配方法及其机器学习进展进行了综述，详细介绍了各种基于匹配的因果推断的传统和机器学习方法。后者在综述的基础上还使用6个模拟数据集对比了遗传匹配与分别使用logitsic回归、RF、Xgboost计算PS值的PSM模型在计算处理组的平均处理效应（Average Treatment effect on Treated Group，ATT）上的表现结果发现遗传匹配在所有数据集上的表现都很差，传统的基于logistic回归的倾向性匹配模型反而在总体上表现最好。Linden和Yarnold（2016）使用实证数据对比了传统logistic回归和支持向量机（Support Vector Machine，SVM）、随机森林和分类树分析（Classification Tree Analysis，CTA）三种机器学习在识别个体是否接受处理（预测倾向值）上的表现，结果发现，CTA使用最简洁的模型达到了最高的预测准确率，且CTA能够提供透明的决策过程，方便研究者阐释研究结果。Westreich等人（2010）则从理论上分析了神经网络（Neural Network，NN）、SVM，CART和提升算法（boosting）相比于传统的logistic regression的优缺点，为研究者进行模型选择提供理论上的指导。

Lee等人（2010）使用模拟数据来评估logistic回归与基于分类回归树（Classification And Regression Tree，CART）模型[包括CART，剪枝的（prune）CART和CART的三种集成学习变种(bagged CART，Random Forest，boosted CART)]在用于逆概加权估计时的模型表现差别。研究者模拟出3种不同规模，且存在7种不同程度的非累加性和非线性的情境下的数据，然后对比不同模型在协变量平衡性、处理效应估计偏误（SE）、离正确系数差距的比例、落在95%置信区间的比例，以及权重的分布这几个标准上的差别，结果发现，集成方法中的随机森林和boosted CART在任何样本规模、任何情景下都持续表现良好（Lee, 2010）。

而提高倾向值估计的准确性使协变量达到平衡是不是就意味模型对平均因果效应的估计会更好呢？Setoguchi等（2008）分别使用只含有主效应的logistic回归和递归划分算法（Recursive Partitioning）、神经网络等数据挖掘算法来计算倾向值，根据不同模型计算出的倾向值来进行匹配并估计处理效应。在7组模拟数据上的研究结果发现，随着协变量之间的关系的复杂性增加，数据挖掘模型比logist回归模型在估计倾向值上会有更好的表现。这说明数据挖掘模型更擅长寻找协变量之间非线性和非累加性的关系。而对于估计处理效应，logistic回归只适合协变量关系为线性、累加性的情况，当变量之间的关系变得复杂，logistic回归对处理效应的估计的偏误也会增加。而神经网络模型在预测倾向值和估计处理效应的都高出其他模型。目前已有一些研究使用机器学习算法来提高对处理效应估计的准确性（Kreif & Diazordaz，2019；Austin，2012；Athey et al., 2018），其典型的方法是使用贝叶斯回归来替代传统的回归模型（Hill, 2011；Hahn et al., 2017）。

除匹配和加权方法外，机器学习方法也可以与工具变量、断点回归、合成控制法等进行结合。李超、求文星（2021）回顾了机器学习对IV、RDD、SCM等传统潜在结果模型的改进，他们认为机器学习对IV的改进主要体现在对IV估计量的构造；而对RDD的改进主要体现在局部断点机制的识别和回归模拟方面；对RDD的主要改进在于构造了更合理的虚拟控制组来进行反事实推断。工具变量可以与LASSO结合，可以在存在多个可能的工具变量的情况下筛选出对控制内生性和提高结果估计准确性的有重要作用的工具变量（Belloni et al., 2017; Gilchrist & Sands, 2016）；工具变量与深度神经网络（deep network）结合，可以解决高维协变量和工具变量情况下人群受到IV的冲击存在异质性的问题[9]（Hartford，2006；Yao et al.，2020）。通过设计自动的统计机器学习算法（automated statistcal machine learning method）可以自动发现局部断点回归机制，并用模拟数据和实证数据验证了这一方法的有效性；此外，断点回归还可以与高斯回归和贝叶斯回归结合来更好地拟合断点两侧的干预组和控制组(Herlands et al.，2018; Branson et al.，2019; 李超、求文星，2021)。

机器学习不仅可以对原有的潜在结果模型进行改进，也有学者将机器学习算法和潜在结果框架结合起来，提出新的具备因果推断能力的机器学习方法。其典型代表是将潜在结果框架引入树形模型的算法中，发展出可以计算平均因果效应的因果树（Causal Tree）、因果森林（Causal Forest）和贝叶斯累加回归树（Bayesian Additive Regression Trees，BART）。得益于树模型特殊的结构优势，使用树模型进行因果推断可以估计处理变量在不同的子群体中的异质性因果效应(Athey & Imbens，2015，2016，2019；Wager ＆Athey，2018；Athey et al.，2019; Kapelner & Bleich，2013；Chipman et al.，2010； Hill et al., 2020；Hahn et al., 2020; 关于这两种方法及其应用的介绍参见：胡安宁、吴晓刚、陈云松，2021)。

三、因果网络模型

（一）因果网络模型的起源

因果网络模型（Causal Diagram Model）是一种概率图模型，其最早的起源可以追溯到哲学家Reichenbach（1959/1923）提出的因果关系的概率论理论（Probablilistic Theories of Causation）。Reichenbach试图通过共同原因准则（Principle of Common Cause）来确定因果关系中的方向性问题（Reichenbach，1959/1923；Beebee et al., 2009）。共同原因准则是指：如果A和B同时发生的概率要大于A和B分别出现的概率的乘积，即P(AB)>P(A)P(B)，那么A和B一定存在一个共同原因C将A、C、B连接成一个二叉结构（fork conjunction）。

图1　二叉结构

A、B、C满足：给定C的情况下，A和B条件独立，且与C不发生时（C'）相比，C发生时A发生的概率更大，即满足A⊥B | C， P(A|C) > P(A|C')，P(B|C)>P(B|C')，这也就意味着，如果C发生，那么A和B都发生的概率要比A和B单独同时发生时的概率更大，通过控制共同原因C使得我们可以发现A和B之间真正的相关关系。Reichenbach的核心观点是我们可以用这一共同原因原则来确定因果关系的方向性，进而确定时间上的先后顺序。如果存在一个二叉结构的A→C←B使得上述这一共同原因准则能够成立，并且没有其他的条件C1也满足于A和B的这一关系，那么我们就认为C是A和B的共同原因，并且C先于A和B。在此基础上Reichenbach将这一分析拓展到对因果关系的中间性的分析中，如果存在A、B、C满足(1) 1 >P(B|C)>P(B|A)>P(B)>0 ; (2) 1>(P(A|C)>P(A|B)C>P(A)>0; (3) A⊥B|C。我们就认为C在因果上处于A和B之间（C is causally between A and B）。

Reichenbach率先使用图（Graph）来表示因果关系，这种图被他称为“因果网”（causal net），其中表示事件的因果序列（A→C→B）的被称为因果链(Causal Chain)。Good对Reichenbach提出的因果网的理论进行了发展，提出了测量实际因果关系（actual causation）和潜在因果关系（potential causation）的方法：F对E的潜在因果倾向性（potential causal tendency）的计算公式为）。即在给定H条件下，F不发生时E不发生的概率除以F发生时E不发生的概率，再对这个商取对数。其中，H包含所有的自然规律和F发生前的背景条件。如果F是E的潜在原因，F和E需要在H存在的情况下在概率上相关。而F对E的真实的因果关系水平（actual causal level）会限制F和E之间的因果网络的强度。在因果网络上，从F到E的连边的强度即为F是E的原因的倾向性，而整个因果网络的强度（strength）即为所有这些连边（包括原因之间的相互作用的连边）的强度的函数（Good，1961； Beebee et al., 2009）。

因果网的突破性进展始于20世纪70年代，当时人工智能的研究者为了在面对不确定性的情况下能够让机器实现自动推理而发展出一些“专家系统”（expert systems），即把人类的专业知识编进计算机以便计算机调用。早期的专家系统是基于规则的系统（rule-based systems），即把专业知识编码成逻辑规则，当计算机读入一组事实（例如患者的症状）时，系统能自动地生成推理。但是这种专家系统的缺陷很快被暴露，因为这些系统的专业知识都只是一般的情况，几乎不包含特例。然而现实的情况总是千奇百怪，存在很多不确定性，但旧的专家系统无法应对这种不确定性。为了应对这些不确定性出现了一些非概率的形式体系被发明出来，但都没有取得很好的效果。后来，一种用概率来推理和表征且用于推理因果关系的形式体系——贝叶斯网络的形式体系（the formalism of Bayesian network）诞生(Pearl ，1988)。

（二）贝叶斯因果图

贝叶斯因果（网络）图（Casual Bayesian Network）又称信念网络（belief network），它的发展吸收了经济学家Goldberger和社会学家Duncan的结构方程模型的思想，结合了Neyman-Rubin的反事实框架并采纳概率图模型的概率推理方法和表达形式，用有向无环图（directed acyclic graphical，DAG）来表示多个变量之间的因果关系和因果结构，是一种概率图形模型（Morgan & Winship，2014，2015）。因果网络模型是将 Bayes网络加上外部干预来定义外部干预的因果作用，并描述多个变量之间的因果关系。一般有两种观点认识它：一种是将DAG看成是表示条件独立性的模型；另一种观点则是将其看成是表示数据生成机制的模型。而因果推断中常常使用的DAG是将其看成数据生成机制的模型（苗旺等，2018）。贝叶斯网络中的节点代表变量，节点间的边代表变量之间的直接依赖关系（也可以看成直接因果关系）。因而，贝叶斯网络图的结构描述了变量之间的独立和相关因果关系。在贝叶斯网络图上，每个节点都附有一个概率分布，根节点没有被任何箭头指向的起点所附的是它的边缘概率分布P(X)，即先验分布，而非根节点X所附的是条件概率分布P(X|π(X))，即后验分布。

这些条件概率分布即为子节点（结果）对父节点（原因）的依赖关系。贝叶斯网络通过对网络结构和参数的学习来构建变量之间的因果关系。对参数的学习即为计算非根节点的条件概率表，条件概率表的计算使用贝叶斯定理的推导公式：P(A|B)=。首先，我们可以根据数据计算出独立事件AB的联合概率P(A∩B), 基于贝叶斯定理，已知事件B发生的概率，B发生的情况下A也同时发生的概率P(A|B)就等于AB同时发生的概率除以B单独发生的概率。而对网络结构的学习（即对变量间因果关系的推断），就变成了变量间独立性检验的问题，如图2所示，验证A与B之间的因果关系需要验证P(A,B|C)是否等于P(A|C)*P(B|C)的问题。

图2　三种常见的因果关系陷阱

图2展示了贝叶斯网络图中的三种常见的变量关系，在这三个子图中，A和B之间没有直接的箭头连接，说明A和B之间不存在因果关系。但在这三种情况下，如果变量C不可观测，那么我们就会对A和B进行错误的因果推论。图2-(a)被称为二叉（fork）图。在(a)中，C分别是A、B的原因，C发生变化，A、B也会随之发生变化，如果我们观察不到C, 那么从A、B的数据来看，A、B是不独立的，我们会将A、B之间的这种因为有共同原C而产生的相关性错误的解读为A、B之间存在因果关系。而当我们能观察到C时就可以避免这种错误的因果推论。图2-(b)是链式关系（chain），当我们观察不到C时，A、B之间是相关的，虽然A和B之间没有直接的关系，但A通过中间变量C影响B，如果当我们能观察到C并对C进行控制时A、B条件独立，那么则认为A和B之间不存在因果关系。图2-(c)的结构叫作对撞机（collider）。A和B都影响C，而当我们能够观察到C并控制C时，A和B由于共同结果的条件作用而变得不独立。

这种用来判断变量是否条件独立的图形化的方法叫作D分割（D- separation）。D分割是贝叶斯网络的基础，根据这一理论，Pearl进一步提出了do算子的概念（Pearl，1995）。Do算子是对有向无环图中的变量进行干预，从而能够在反事实的框架下计算父节点对子节点的因果效应。Pearl提出，一个有效的因果模型应该是一个公式体系：Xi=F（Pai, Ui），Xi、 Pai、 Ui代表所有的变量。Pai是Xi的直接原因，Pearl将其类比为 “父母”（Parents），Ui是所有影响X的其他原因的集合。对变量Xi的干预（intervention）是指切断Xi与其“父母”的所有联系，仅仅对某个或某些Xi变量做改变——改变这个或这些Xi的取值或属性——来达到对Xi的干预，并且在这个系统中的其他因果关系并不受影响，也就是网络结构不会发生改变。在贝叶斯网络图中，do(xi)=x’i表示将图中指向xi的连边全部切断,例如切断图(b)中的A→C这一连边，然后将xi (C)的取值固定为常数，再计算干预后整个网络的联合概率分布，即通过干预C来看C对B的作用（Pearl，1995，2000； 2009；2018；Morgan & Winship，2014，2015）。由此可见，Do算子是通过人为的对因果网络进行外部干预来探讨数据生产的机制，Do算子和D分割结合可以对混杂因素进行识别和控制，从而对变量之间的真实的因果关系进行推断。

苗旺等人（2018）对贝叶斯因果网络进行了总结，认为因果网络模型研究中存在两类问题：一是因果作用的可识别性；识别因果作用的目的与潜在结果的因果模型一致[10]——探讨判断混杂因素的准则并对因果效应进行估计，并且因果网络模型能够更精准地对混杂因素进行判断。二是因果网络的学习，包括网络参数学习和网络结构学习。参数学习是在因果网络结构已知（通常是研究者基于理论对变量之间的因果关系做出假设来设定因果图中的节点和连边）的情况下利用观察数据来估计参数，贝叶斯网络参数估计通常采用最大似然估计或贝叶斯方法，根据因果图中的变量的联合分布来估计条件概率 pr(xi |pai)。“在正态随机变量的情形, 估计给定父节点变量集合pai下Xi的条件正态分布的参数”（苗旺、刘春辰、耿直，2018）。而网络结构学习则是在网络结构（连边）未知的情况下，以数据驱动从观察数据中学习出网络结构。

从观察数据中对因果网络结构进行学习叫作因果关系发现（Causal discovery，简称因果发现）。蔡瑞初等（2017）对基于非时序观察数据的因果关系发现的方法进行了全面的综述，也对从观察数据中学习贝叶斯网络结构的方法进行了总结。从观察数据中学习贝叶斯因果网络大多数采用基于约束（constraint-based）的方法。这一方法是通过中变量间的条件独立性来判断度量特定结构是否存在，因此也被称为基于条件独立性的算法，最基本的算法有IC（Inductive Causation）算法和PC（Peterand Clark），也有一些研究使用评分或搜索等其他算法（对贝叶斯网络结构学习算法详见蔡瑞初、苗旺等人的综述）。值得一提的是，因果发现并不一定是纯数据驱动的，研究者也可以根据已有的理论知识对网络中的局部结构进行定义，从而提高网络结构学习的效率和准确性。由于因果发现仍是统计、计算机等学科的前沿领域，尚未发展出可以直接使用来在高维观察数据中进行因果发现的成熟的方法和模型[11]，因此社会科学鲜有使用贝叶斯因果图来对高维观察数据进行研究。当前的研究中对社会科学最有启发性的是将贝叶斯因果网络用于探索调查数据的变量关系上（Ticehurst et.al; Craig et al.,2009；范丽珺、游顶云、张旺等,2010）。其中，Craig 等人(2009)运用美国青少年健康调查(Add Health)数据，通过贝叶斯因果网络进行探索性分析，来研究影响青少年抑郁的影响因素和各影响因素互相之间的关系(Craig et al.,2009)。

（三）从因果关系到因果机制

潜在结果模型的目的和功能是检验单个自变量对单个因变量的因果关系并估计因果效应，这些方法本身并不能揭示因果关系的作用机制，也不能反映多个变量之间的因果结构。而当前社会科学已经不满足于只探讨两个变量之间的因果关系，越来越多的研究者认为我们对因果问题的研究仅仅推断因果关系是不够的，还需要揭示原因对结果的作用机制（Hedström，2005；Hedström & Ylikoski，2010）。“因果概念如果要客观意义，一定要包含对因果机制的解释”（彭玉生，2011）。

因果机制理论分为横向和纵向两种视角（Casini & Manzo，2016）。在横向的因果机制理论视角下，因果机制是指“变量之间的一种非常稳健的关系网络”[12]；是“被反事实的相关关系所联系起来的包含实体的模块化的集合”[13]（Knight & Winship，2013）；是一个“包含着在处理变量和结果之间存在一个或多个中介变量的因果关系”[14]（ Morgan & Winship，2014）。也就是说，横向因果机制必须包含因果性和结构性，即在反事实的框架下寻求多个变量之间的因果结构。而因果网络模型既可以推断因果关系、估计因果效应，也可以识别因果的网络结构，因此，使用贝叶斯因果图不仅可以进行推断因果关系，也描绘出因果的作用机制（梁玉成、贾小双，2021）。

而纵因果机制的纵向视角则认为，“机制”是指在一个由个体之间的互动产生系统层面的结果的“复杂系统”中，个体在互动中体现出的稳定的关系；机制性的解释就是探究复杂系统中个体的互动如何涌现出宏观现象。纵向因果机制强调生成性，即原因导致结果产生的过程（Machamer, 2000；Bechtel & Abrahamsen, 2005；Glennan, 2002；Hedström & Swedberg , 1998；Hedström，2005；Hedström & Ylikoski 2010；Hedström et al.,2009）。因此，基于自主行动者建模（Agent-based Modeling，ABM）是分析纵向因果机制的不二之选（Casini，2016；梁玉成、贾小双，2021）。

四、ABM与因果机制分析

ABM，是一种通过自下而上（bottom up）的方式来研究复杂社会系统的方法(Wooldridge, 2009；Axtell, Epstein & Young, 2006)。其方法的特点在于，“ABM是通过无中心的、局部的、异质性的自主行动个体，来研究社会规律如何出现”（Epstein，1999，2006）。ABM通过在计算机中设定大量自主行动者，它们是具有认知、决策判断和行动能力个体。在研究中，研究者根据所要研究的现象，在模型中设置不同的行动者，并根据需要设定不同的角色，赋予其特定的认知能力、先赋的资源禀赋，以及判断流程和行动模式。然后足够数量的自主行动者被放置在一个人工建构的世界中，随着时间的进程，各自不断地重复“外部认知、策略判断、展开行动”的过程，从而通过行动者之间，以及行动者和世界之间的不断互动，进而涌现出宏观社会现象。简单来说，ABM是在一个研究者模拟出的世界中来看自主行动者在什么样的规则的作用下、如何演化出特定的宏观现象（Epstein，1999，2006；Bianchi & Squazzoni，2015；Bruch & Atwell, 2015）。在模拟中研究者可以开启“上帝视角”来改变行动者行动和互动的规则，创造各种（包括反事实）的情境来研究“原因”引起（bring about）“结果”的过程。

ABM发展的早期是从概念模型开始的，研究者的ABM模型设置和检验往往都属于理论或经验。在进行模型的参数设置时，学者们通常对模型参数（如行动者的性别、年龄、行动偏好等）的初始值进行随机设置（由不同的随机数种子而随机进行的），在同样的参数设置下模型每次运行也都会出现差别化的结果。通过这类模型研究因果关系的做法遭到了猛烈的批判：因为ABM研究中有一个非常重要的特点——模拟复杂系统的模型的初始设置和互动的规则设置，往往会影响甚至决定模型模拟的结果。复杂系统的初始条件决定行动者的空间分布，决定行动者所处的环境，甚至有时候决定着行动者的行为模式，因此复杂系统模型的初始化设置和规则设置若不符合现实状况，便很难模拟出真实的社会现象。其次，如果这些设置的假设无法从现实中得到经验数据的验证，如何证明模型的真实性？(Prietula, Carley & Gasser1998； Boero , Squazzoni, 2005)。

面对这一批判，学者们开始对这一模型进行改进，发展出数据驱动ABM（Data-driven ABM），提倡用实证数据来进行模型的校准（model calibration）和模型的校验（model validation），从而确保模型的稳健性和准确性的一种社会模拟方法（Zhang et al., 2015；Oreskes，Shrader-Frechette & Belitz，1994）。Hassan等人提出将实证数据引入ABM的5个步骤：（1）研究者需要从现实社会中收集实证数据；（2）根据实证数据（如方程、一般化和类型化的社会事实、专家提供的定性数据）、相关理论及研究者的研究假设来设计ABM模型；（3）根据社会调查、人口普查等实证数据来初始化模型；（4）运行模型，输出结果；（5）对模型进行检，将模型输出的数据与实证数据进行比较。需要注意的是，为了保证模型检验和模型设计相互独立，我们在进行模型检验时应避免使用模型设计和初始化过程中所使用的相同的数据（Hassan, Pavon & Gilbert，2008；Squazzoni, 2012；Smith & Conrey，2007）。

Casini对ABM的类型做了详细的分类：根据是否有理论来源，是否使用现实数据初始化模型，模型是否通过现实数据校验这三个条件，他将目前的ABM分为处于思维实验—数据驱动的ABM之间的8种类型，并详细论证了在什么情况下模型具有识别因果关系和发现因果机制的能力。显然，当这三个条件完全满足时，模型具有因果推论能力（Casini，2016）。然而现实中ABM很难满足这些条件，尤其是对模型的校准（calibration）的要求，因为我们校准模型用的数据主要来自抽样调查数据和实验数据，而基于这些数据，我们一般只能用函数的方式（大多数是回归）来模拟行动者不同特征之间的规则，但真实的数据生成机制很可能是非线性的（Hedström & Manzo， 2015）。

除此之外，ABM还面临着一些其他的争议，一方面，ABM模拟的真实性与模型的复杂性之间的trade-off难以平衡（Boero et al., 2005）；另一方面，能够涌现出同样宏观现象的规则可能不止一个，我们无法保证通过ABM得出的因果机制是真实的因果机制（Casini，2016）。ABM的诸多限制及其在因果推论上面临的质疑使得社会科学研究者较少使用这一方法来进行因果推断。但由于ABM具备能够反映出宏观现象的涌现过程的独特优势，虽然不能进行因果推断，但也能基于一些既定的因果关系作出一些机制性的解释。我们可以先采用潜在结果模型或因果网络模型对因果作用进行推断，然后再将实证数据注入来设置ABM模型参数，从而对因果作用的过程提供一个可能的机制性的解释（梁玉成、贾小双，2021）。

五、结论

本文基于反事实框架对社会科学中因果分析的潜在结果模型、因果网络模型和ABM三大方法论体系进行了梳理，回顾了每个方法论的核心概念和思想，并对主要的模型进行了回顾。其中，潜在结果模型的方法论体系更为完善，其模型和方法更为成熟，实际应用相对其他方法而言也更加可行。因此，本文对社会科学中常见的潜在结果模型——包括针对混淆变量可观测的截面数据的倾向值与其他匹配方法、加权方法；针对存在不可观测混淆变量的时序观察数据的工具变量法、断点回归；以及针对存在不可观测变量的纵向数据的双重差分法与合成控制法——的核心思想进行了回顾，并介绍了这些方法与机器学习结合的最新进展。而由于因果网络模型尚未发展成熟，ABM的使用及其因果推断能力存在限制，社会科学研究中使用这两种方法进行因果推断的研究较少。但身处大数据时代，随着方法和技术的不断发展，因果推断领域将持续被更多的学者关注，在解决因果问题上取得更丰富的进展。

参考文献

蔡瑞初、陈薇、张坤等, 2017，《基于非时序观察数据的因果关系发现综述》，《计算机学报》第40卷第6期。

陈林、伍海军, 2015，《国内双重差分法的研究现状与潜在问题》，《数量经济技术经济研究》第7期。

陈云松、范晓光, 2010，《社会学定量分析中的内生性问题测估社会互动的因果效应研究综述》，《社会》第30卷第4期。

陈云松, 2012，《逻辑、想象和诠释: 工具变量在社会科学因果推断中的应用》，《社会学研究》第6期。

郭申阳，2012，《倾向值分析:统计方法与应用. 倾向值分析：统计方法与应用》，重庆：重庆大学出版社。

胡安宁、吴晓刚、陈云松, 2021，《处理效应异质性分析——机器学习方法带来的机遇与挑战》，《社会学研究》第1期。

胡安宁，2012，《倾向值匹配与因果推论:方法论述评》，《社会学研究》第1期。

胡安宁，2018，《以机器学习方法助力因果推断》，《中国社会科学报》8月22日。

蒋建忠，2017，《匹配与社会科学因果推论》，《实证社会科学》(第四卷)。

李超、求文星，2021，《基于机器学习的因果推断方法研究进展》，《统计与决策》第37卷第11期。

李文钊，2018，《因果推理中的潜在结果模型:起源,逻辑与意蕴》，《公共行政评论》。

梁玉成、贾小双，2021，《横向因果与纵向因果——计算社会科学的范式探讨》，《天津社会科学》第1期。

孟天广，2017，《从因果效应到因果机制:实验政治学的中国路径》，《探索》第5期。

孟天广，2018，《政治科学视角下的大数据方法与因果推论》，《政治学研究》第140卷第3期。

苗旺、刘春辰、耿直，2018，《因果推断的统计方法》，《中国科学:数学》第48卷第12期。

彭玉生，2011，《社会科学中的因果分析》，《社会学研究》第3期。

王天夫，2006，《社会研究中的因果分析》，《社会学研究》第4期。

周黎安、陈烨，2005，《中国农村税费改革的政策效果:基于双重差分模型的估计》，《经济研究》第8期。

Abadie，A.，Diamond，A.& Hainmueller,J.2010，“Synthetic control methods for comparative case studies: Estimating the effect of California’s tobacco control program.” Journal of the American statistical Association 105(490).

Abadie，A.，Gardeazabal，J.2003，“The economic costs of conflict: A case study of the Basque Country.” American economic review 93(1).

Abadie，A. & G. W. Imbens 2016，“Matching on the estimated propensity score.” Econometrica 84 (2).

Abbott，A.1998，“The Causal Devolution.” Sociological Methods and Research 27(2).

Angrist，J.D., Imbens，G. W., Rubin，D. B.1996，“Identification of causal effects using instrumental variables.” Journal of the American statistical Association 91(434).

Angrist，J.D.，Krueger，A.B.2001，“Instrumental Variables and the Search for Identification: From Supply and Demand to Natural Experiments.” Journal of Economic Perspectives 15(4).

Ashenfelter，O.1978，“Estimating the effect of training programs on earnings.” The Review of Economics and Statistics.

Athey，S.，Bayati，M.，Imbens，& G.，et al. 2019，“Ensemble methods for causal effects in panel data settings.”AEA Papers and Proceedings 109.

Athey，S.，Imbens，G. W., & Wager, S.2018. “Approximate residual balancing: debiased inference of average treatment effects in high dimensions.” Journal of the Royal Statistical Society: Series B (Statistical Methodology) 80(4).

Athey,S.,Imbens,G.W.2015,“Machine learning methods for estimating heterogeneous causal effects.” stat 1050(5).

—2016.“Recursive partitioning for heterogeneous causal effects.” Proceedings of the National Academy of Sciences 113(27).

Athey，S.，Imbens，G.W. 2017，“The state of applied econometrics: Causality and policy evaluation.” Journal of Economic Perspectives 31(2).

Athey, S., Guido，W.& Imbens 2017，“The State of Applied Econometrics: Causality and Policy Evaluation.” JEP 31 (2).

Athey, S., Imbens，G.W. 2017，“The State of Applied Econometrics: Causality and Policy Evaluation.” JEP 31 (2).

Austin，P. C. 2012，“Using ensemble-based methods for directly estimating causal effects: an investigation of tree-based G-computation.” Multivariate behavioral research 47(1).

Axtell，R.L, Epstein，J. M. & Young，H. P. 2012，The emergence of classes in a multi-agent bargaining model.Princeton University Press.

Bang，H.，Robins，J.M. 2005，“Doubly robust estimation in missing data and causal inference models.” Biometrics 61(4).

Bechtel，W.& Abrahamsen A, 2005，“Explanation: A mechanist alternative.” Studies in History and Philosophy of Science Part C: Studies in History and Philosophy of Biological and Biomedical Sciences 36(2).

Beebee，H. & Hitchcock，C.，Menzies，P.2009，The Oxford Handbook of Causation. Oxford University Press.

Belloni，A.，Chernozhukov，V. & Fernández-Val I, et al.“2017 Program Evaluation and 1:1048576 Inference With High- dimensional Data .”Econometrica 85(1).

Bianchi, F. & Squazzoni, F. 2015. “Agent-based Models in Sociology.” Computational Statis- tics 7(4).

Boero，R. & Squazzoni， F. 2005，“Does empirical embeddedness matter? Methodological issues on agent-based models for analytical social science.” Journal of artificial societies and social simulation 8(4).

Bruch, E. & Atwell, J.2015，“Agent-Based Models in Empirical Social Research.” Sociological Methods and Research 44(2).

Casini, L. & Manzo, G.2016，“Agent-based models and causality: a methodological appraisal.”

Chipman，H. A, George，E. I. & McCulloch，R. E. 2010，“BART: Bayesian additive regression trees.” The Annals of Applied Statistics 4(1).

Craig, Carlton，D., Sprang, et al. 2009，“Exploratory and Confirmatory Analysis of the Trauma Practices Questionnaire.” Research on Social Work Practice 19(2).

Czajka，J.L., Hirabayashi，S.M., Little，R. J. A., et al. 1992，“Projecting from advance data using propensity modeling: An application to income and tax statistics.” Journal of Business & Economic Statistics 10(2).

Dieng, A., Liu, Y., Roy, S., Rudin, C., & Volfovsky, A.2019，“Interpretable almost-exact matching for causal inference.” In The 22nd International Conference on Artificial Intelligence and Statistics (pp. 2445-2453). PMLR.

Epstein，J.M.，Axtell，R.1996，Growing artificial societies: social science from the bottom up. Brookings Institution Press.

Epstein，J. M.1999，“Agent-Based Computational Models and Generative Social Science.” Complexity 4(5).

Epstein, J. M.2006， Generative Social Science: Studies in Agent-Based Computational Modeling. Princeton: Princeton University Press.

Feng，G., Quirk，J. G.,Djurić，P. M.2019，“Detecting Causality using Deep Gaussian Processes.” In 2019 53rd Asilomar Conference on Signals, Systems, and Computers (pp. 472-476). IEEE.

Fisher,R. A.1935, “The Design of Experiments.” Oliver and Boyd.

Gilchrist，D.S.，Sands，E.G.2016，“Something to talk about: Social spillovers in movie consumption.”Journal of Political Economy 124(5).

Glennan，S.S.1996，“Mechanisms and the nature of causation.” Erkenntnis 44(1).

Goldthorpe，J.H.2001，“Causation, Statistics and Sociology.” European Sociological Review 17(1).

Good，I.J.1961，“A causal calculus (I).” The British journal for the philosophy of science 11(44).

Hahn，J.，Todd，P.，Van der Klaauw.W.，2001，“Identification and estimation of treatment effects with a regression-discontinuity design.” Econometrica 69(1).

Hahn，P.R.，Murray，J.S.，Carvalho，C.M. 2020，“Bayesian regression tree models for causal inference: Regularization, confounding, and heterogeneous effects (with discussion).” Bayesian Analysis 15(3).

Hahn，P.R.，J.S.Murray，C.M.Carvalho 2017，“Bayesian regression tree models for causal inference: regularization, confounding, and heterogeneous effects.”

Hartford，J.，Lewis，G.，Leyton-Brown，K.，et al，2017，“Deep IV: A flexible approach for counterfactual prediction.”International Conference on Machine Learning. PMLR: 1414-1423.

Hassan，S.，Pavo ́n，J.，Antunes，L.，& Gilbert，N.，2010，“Injecting Data into Agent-Based Simulation.” In Takadama, K., Deffuant, G., and Cioffi-Revilla, C., editors, Simulating Interacting Agents and Social Phenomena: The Second World Congress Springer, Tokyo (2010)，volume 7 of Springer Series on Agent Based Social Systems, pages 179–191. Tokyo: Springer.

Hedstro ̈m，P. & Bearman，P.，2009，The Oxford Handbook of Analytical Sociology. Oxford: Oxford University Press.

Hedström，P.，Manzo，G.，2015，“Recent trends in agent-based computational research: A brief introduction.” Sociological Methods & Research 44(2).

Hedström，P.2005，Dissecting the Social. On the Principles of Analytical Sociology. Cam- bridge: Cambridge University Press.

Hedström，P.， & Swedberg，R.1998，“Social mechanisms: An introductory essay.” Social mechanisms: An analytical approach to social theory.

Hedström，P.，& Ylikoski，P. 2010，“Causal mechanisms in the social sciences.” Annual review of sociology, 36.

Hill，J.L.，2011，“Bayesian nonparametric modeling for causal inference.” Journal of Computational and Graphical Statistics 20(1).

Hirano，K.，Imbens，G.W.，Ridder，G. 2003，“Efficient estimation of average treatment effects using the estimated propensity score.” Econometrica 71(4).

Holland，Paul，W.1986，“Statistics and causal inference.” Journal of the American statistical Association 81.

Iacus，S.，Blackwell，M.，King，G.，et al. 2009，“Cem: Coarsened exact matching in Stata.” The Stata Journal 9(4).

Imbens，G.W.，Lemieux，T. 2008，“Regression discontinuity designs: A guide to practice.” Journal of econometrics 142(2).

Imbens，G.W. 2008，“Matching Methods in Practice: Three Examples.” Journal of Human Resources 50(2).

Imbens，G.，Kalyanaraman，K.，2012，“Optimal bandwidth choice for the regression discontinuity estimator.” The Review of economic studies 79(3).

Imbens，G. W.，& Rubin，D. B.2015，Causal inference in statistics, social, and biomedical sciences. Cambridge University Press.

Kapelner，A.，Bleich，J.，2013，“Bartmachine: A powerful tool for machine learning.”Stat 1050.

Kreif，N.& Diaz Ordaz，K.2019，“Machine learning in policy evaluation: new tools for causal inference.”arXiv preprint arXiv:1903.00402.

Lee，B.K.，Lessler，J.& Stuart，E.A.2010，“Improving propensity score weighting using machine learning.” Stat Med 29(3).

Lee，D. S.& Lemieux，T.2010，“Regression discontinuity designs in economics.” Journal of economic literature 48(2).

Leuven，E. & Sianesi，B.2003，PSMATCH2: Stata module to perform full Mahalanobis and propensity score matching, common support graphing, and covariate imbalance testing.

Lewis，D.1986，Philosophical Papers II.Oxford University Press.Page: 159-172 “Causation”.

Lewis，D. 2001，Counterfactuals.Blackwell.

Linden，A.& Yarnold，P.R.2016，“Using machine learning to assess covariate balance in matching studies.” Journal of Evaluation in Clinical Practice 22.

Lunceford，J.K.& Davidian，M. 2004，“Stratification and weighting via the propensity score in estimation of causal treatment effects: a comparative study.” Statistics in medicine 23(19).

Machamer，P.Darden，L.& Craver，C.F.2000，“Thinking about mechanisms.” Philosophy of science 67(1).

Mill，J. S. 2011，A System of Logic. eBooks@Adelaide

Neyman，J.& Iwaszkiewicz，K.1935，“Statistical problems in agricultural experimentation.” Supplement to the Journal of the Royal Statistical Society 2(2).

Neyman，J. S.1923，On the application of probability theory to agricultural experiments. essay on principles. section 9.(tlanslated and edited by dm dabrowska and tp speed, statistical science (1990), 5, 465-480). Annals of Agricultural Sciences, 10, 1-51.

Oreskes，N.Shrader-Frechette，K.& Belitz，K.1994，“Verification, validation, and confirmation of numerical models in the earth sciences.” Science 263(5147).

Pearl，J.& Mackenzie，D.2018，“The book of why : the new science of cause and effect.” Science 361(6405).

Pearl，J.1995，“Causal diagrams for empirical research.”Biometrika 82(4).

Pearl，J.1988，Probabilistic reasoning in intelligent systems: networks of plausible inference. Morgan kaufmann.

Pearl，J.2009，Causality: Models, Reasoning, and Inference.Cambridge University Press, New York. 2nd edition. MR1744773

Pearl，J.& Mackenzie，D.2018，The Book of Why: The New Science of Cause and Effect (1st ed.). Basic Books, Inc., New York, NY, USA.

Prietula，M.Carley，K.& Gasser，L. 1998，“Simulating organizations: Computational models of institutions and groups.”The MIT Press.

Reichenbach，H.，1959，Modern philosophy of science: Selected essays.转引自The Oxford handbook of causation. Oxford University Press, 2009.

Rosenbaum，P.R.& Rubin，D. B. 1983，“The central role of the propensity score in observational studies for causal effects.” Biometrika 70(1).

Rubin，D. B.1974，“Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies.” Journal of Educational Psychology 66(5).

Rubin，Donald，B.1980a，“Bias Reduction Using Mahalanobis-Metric Matching.” Biometrics 36.

Rubin，D.B.1977，“Assignment to Treatment Group on the Basis of a Covariate.” Journal of Educational Statistics 2.

—1978，“Bayesian Inference for Causal Effects: The Role of Randomization.” Annals of Statistics 6.

—1980a，“Bias Reduction Using Mahalanobis-Metric Matching.” Biometrics 36.

—1980b，“Comment on ‘Randomization Analysis of Experimental Data in the Fisher Randomization Test’ by Basu.” Journal of the American Statistical Association 75.

—1981，“Estimation in Parallel Randomized Experiments.” Journal of Educational Statistics 6.

—1986，“Which Ifs Have Causal Answers (Comment on ‘Statistics and Causal Inference’ by Paul W. Holland).” Journal of the American Statistical Association 81.

—1990，“Formal Modes of Statistical Inference for Causal Effects.” Journal of Statistical Planning and Inference 25.

—2005，“Causal Inference Using Potential Outcomes: Design, Modeling, Decisions.” Journal of the American Statistical Association 100.

Setoguchi，S.，Schneeweiss，S.，Brookhart，M.A.，Glynn，R.J.& Cook，E.F. 200，“Evaluating uses of data mining techniques in propensity score estimation: a simulation study.” Pharmacoepidemiol Drug Saf 17.

Smith，E.R.& Conrey，F. R.2007，“Agent-based modeling: A new approach for theory building in social psychology.”Personality and social psychology review 11(1).

Sizemore，S. & Alkurdi，R.2019，Matching Methods for Causal Inference: A Machine Learning Update.

Sobel，Michael，E.1996，“An introduction to causal inference.”Sociological Methods & Research 24, no. 3.

Squazzoni，F.2012，Agent-based computational sociology. John Wiley & Sons.

Stuart，E.A.2010，“Matching methods for causal inference: A review and a look forward.” Statistical science: a review journal of the Institute of Mathematical Statistics 25(1).

Thistlethwaite，D.L.，Campbell，D.T.1960，“Regression-discontinuity analysis: An alternative to the ex post facto experiment.” Journal of Educational psychology 51(6).

Ticehurst，B.J.，Curtis，A. & Merritt，W. Can Bayesian Networks aid analysis of survey data: A case study of a landholder survey in the Wimmera, Victoria.

Wager，S.，Athey，S. 2018，“Estimation and inference of heterogeneous treatment effects using random forests.” Journal of the American Statistical Association 113(523).

Westreich，D.，Lessler，J. & Funk，M.J.2010，“Propensity score estimation: neural networks, support vector machines, decision trees (CART), and meta‐ classifiers as alternatives to logistic regression.” J Clin Epidemiol 63(8).

Winship，C. ＆ Morgan，S.L.1999，“The Estimation of Causal Effects from Observational Data.”Annualreview of sociology 25(1)．

Winship，C. & Sobel，M.2004，“Causal Inference in Sociological Studies.” In Hardy，M.& Bryman, A.，editors, A Handbook of Data Analysis，pages 480–504. London: Sage Publications.

Wooldridge,M. An introduction to multiagent systems. John wiley & sons, 2009.

Yao，L.，Chu，Z.，Li，S.，Li，Y.，Gao, J.，& Zhang，A.2020，A survey on causal inference. arXiv preprint arXiv:2002.02770.

Zhang，H.，Vorobeychik，Y.，& Letchford，J.，et al.2016，“Data-driven agent-based modeling, with application to rooftop solar adoption.” Autonomous Agents and Multi-Agent Systems 30(6).

[1]作者简介：贾小双，中山大学社会学与人类学学院博士生, 研究方向主要为计算社会学、社会分层。联系邮箱：jiaxsh@mail2.sysu.edu.cn。

[2]对于一个事物我们一次只能观察到采取了某种策略的结果，而观察不到假如不采取这种策略会是什么结果，因此，我们能够观察到的结果被称为事实，而观察不到的被称为 “反事实”，

[3]潜在结果框架在后期的发展中吸收了各学科思想，包括来自统计学的Fisher（1935，1971）的随机实验，来自计量心理学的Thurstone（1930）和经济学的Haavelmo(1943)、Roy(1951)和Quandt（1958，1972）的思想。关于潜在结果框架的发展历史性回顾可参见Holland，1986；Sobel,1996；Winship & Morgan，1999。

[4]李文钊（2018）在一篇潜在结果模型的综述《潜在结果模型：起源、逻辑与意蕴》中，对哲学和统计学、社会科学中的反事实框架以及潜在结果模型进行了梳理，详细地介绍了三者的发展脉络与核心思想，并阐明了三者之间的关系。他指出，统计学、社会科学中虽然使用了反事实的框架的术语，但其核心内容是依据潜在结果模型来构造的。

[5]SUTVA is simply the a priori assumption that the value of Y for unit u when exposed to treatment t will be the same no matter what mechanism is used to assign treatment t to unit u and no matter what treatments the other units receive. Rubin(1986:961).

[6]政治学和公共原理、政策研究中使用实验方法进行因果推理的趋势正在加强，体现在实验政治科( Experimental Political Science)的兴起和基于因果推理、实验方法和研究设计的政策评估研究领域的形成 (Druckman et al．，2011；Shadish et al．，2002；李文钊，2018；孟天广，2017)。

[7]遗传匹配是将处理组与对照组的样本进行配对，然后检验配对后的样本平衡性，在此基础上更新配对，并重复迭代这一过程，直到达到最优的样本平衡性遗传匹配同时使用观察到的协变量和个体倾向值进行配对，在每一次的迭代中都会产生一个对应的距离度量标准（Distance Metric），这一度量会导致不同的配对产生。这一度量标准在每次的迭代中都会通过赋予协变量不同的权重而产生变化。因此，这种算法能够学习到哪些协变量对达到最好的匹配效果最为重要。算法期初会随机赋予权重，在每一次的迭代过程中，随着权重的改变，算法通过降低损失函数来达到最优平衡性（Diamond & Sekhon，2013）

[8]杜克大学的Dieng及其团队提出的D-AEMR算法适用于计算非常高纬度的匹配问题。Dieng认为，应该在n维空间[基于加权汉明距离(weighted Hamming distance)得到]中进行配对（而不是一维的倾向值），但应该只选择重要的协变量构建这一空间。D-AEMR使用机器学习的优化算法计算每个协变量的重要性得分，变量的重要性是指变预测Y的能力，而不是预测处理状态的能力。该算法完全优化了每个样本对的加权汉明距离，同时，由于它使用位向量算法（bit-vector）且使用database programming，这种算法非常高效。当匹配质量开始下降时，可以提前结束搜索。

[9]Hartford等人(2016)将工具变量法拆解为两个阶段的有监督学习，且将这两个阶段都可以与深度神经网络结合起来。在第一阶段，将一系列工具变量和协变量“喂”进一个深度神经网络来拟合处理变量W的条件分布。第二阶段，用这个拟合好的条件分布与第二个深度神经网络结合，来优化损失函数，并且用外部效度（out-of-sample causal validation）来调整神经网络的超参数。大多数的工具变量模型只能识别局部平均处理效应（LATE），但是人群是充满异质性的，不同的群体可能受到工具变量的冲击不同。非参数的IV方法可以解决异质性的问题，但是当协变量和工具变量的数量过多时，计算上难以实现，而这种Deep IV的方法则可以解决这个问题（Hartford，2016）。

[10]Morgan和Winship对do算子与潜在结果模型的关系的分析详见Morgan & Winship，2014,2015。

[11]Tetrad可用于观察数据的因果发现，但不能处理较高维度的数据，对网络结构学习的效果也不太理想。

[12]“a mechanism is interpreted as a network of variables that stand in particularly robust relations”.

[13]“modular sets of entities connected by relations of counterfactual dependence”.

[14]a causal relationship involving one or more intervening variables between a treatment and an outcome.