1.3 附录:其他研究情境下因果推论模型举例
一种因果关系的建立需要代表原因的那个自变量或者处理变量发生在表示结果的因变量之前,因此对因果关系的讨论必然会涉及时间序列分析。在这方面的研究中,比较著名的一个模型是格兰杰因果模型(Granger causal model)。这个模型是计量经济学家格兰杰在20世纪60年代提出来的(Granger 1969)。具体而言,他认为在一个时间序列中,如果考察Xt以后能够更好地预测Yt,则Xt是引起Yt的原因。这里Xt表示的是在时间t时的X取值,而Yt则是我们关心的因变量在时间t时的取值。
格兰杰这里用U来指代一种一般意义上(universal)的解释Y取值的因素,其中U包括X以及其他所有没有观测到的可以解释Y的因素。那么,在常规的回归模型中,假设将X从U中去除,则U对于Y的解释力应当是变弱。这反映在因变量Y在用U进行预测以后其残差项的方差取值产生变化。如果用数学表达式来表示,则意味着:
在这个不等式中,Y表示时间t的取值。表示t之前(t-1,t-2,…,m)的能够解释Y的所有因素。从上面的表达式可以看出,如果X能够解释Y,则从U中去除X后,σ2(Y)会变大,即不能很好地解释Y。如果经验研究发现这个模式,则证明X对Y有某种因果性的效果。
基于这个基本的模型,格兰杰也列举了其他几种不同的因果关系模式。例如,互为因果则意味着X和Y之间互相影响。因此就可以表达成以下公式:
即时因果(instantaneous causality)则能够表述为:
其中,包括t时间及其之前的X取值。也就是说,我们把U和X都考虑进来要比单纯考虑U能够更好地解释Y。
从时间序列模型上讲,一个格兰杰因果关系意义上的分析则要求在模型中,t之前的X的取值能够显著地预测Yt,即在下面的公式中,bj不可以为0。
[1] 例如,涂尔干的宗教社会学思想依据的是澳大利亚的土著居民的生活经验(Durkheim[1912]1995),而韦伯的宗教社会学研究则是进行不同宗教传统之间的个案对比(Weber 1946,1963)。
[2] 这里的处理变量可以看作自变量,即我们希望了解其效果的那个变量。
[3] 这里所指的安排并不是研究者为了得到自己“所希望”的结论而干扰实验过程。相反,安排的含义是通过特定的实验设计来尽可能地避免潜在的因果推论误差。
[4] 反事实个案是和我们关心的个案相匹配的个案,其在某个因变量上的取值可以看作我们关心的个案在同样因变量上取值的反事实。
[5] 这也就是为什么我们希望就同样的个体(例如个体甲)来建构反个案,因为如果个案和反个案都是针对同样的个体的话,他们之间除了处理变量之外在所有的其他变量的取值上都是一样的。
[6] 这取决于我们研究的关注点是在实验组中的个体还是在控制组中的个体。
[7] 并非所有的混淆变量都能够被直接观测到,这就要求研究者进行敏感性分析。详细信息见本书后面章节。
[8] 在一般的线性回归中,我们会假设因变量Y是正态分布的。而在广义线性回归中,因变量的分布可以是逻辑分布,也可以是负二项分布,等等。但是这些分布状态都是研究者人为指定的,而不是从数据中直接得出的。
[9] 当然,6个个案的数量不足以提供较强的统计检定力。这里仅仅是一个简单的例子。
[10] 例如,一般的零假设会认为接受新教学项目和旧教学项目的学生在“均值”上相等,但是强零假设则强调对每个人而言,新旧教学项目的效果都是一样的。