社会学方法与定量研究(第二版)
上QQ阅读APP看书,第一时间看更新

回归分析和路径分析的两种途径

类型逻辑思维和总体逻辑思维是两种科学哲学观点,它们为统计分析——尤其是回归分析——提供了两种途径。回归分析至今仍是量化社会学方法中应用最广泛的工具。我将这两种方法分别命名为“高斯方法”和“加尔顿方法”。我不知道是谁最先启用这两个名词,但我第一次见到它是在弗里德曼(David Freedman)写给邓肯的信(1986年4月25日)中。我们可以采用以下方法来形象地对其加以区别。


高斯方法(类型逻辑思维):

观测数据=固定模型+测量误差

加尔顿方法(总体逻辑思维):

观测数据=系统差异(组间差异)+残余差异(组内差异)


这两种方法的区别很微妙,因为它只会影响解释,而不会影响到回归参数的估计。事实上,弗里德曼好心地告诉我这种区别实在是“太微妙了,因为这两种情况似乎无法在统计上进行区分”(2005年10月28日,个人通信)。研究者们无论对回归持怎样的哲学观点,无论是否认识到这种微妙的区别,均使用相同的数学公式和统计软件,根据相同的统计表格得到统计推论。

一种理解、区分这两种方法的途径是对模型进行简化从而使观测值散布于固定量的周围:

这就是著名的测量模型。在物理学中,科学家们可能知道存在一个固定的量,但碍于测量误差而无法获得。为解决此难题,统计学的测量理论应运而生:在一般情况下(例如,测量仪器没有系统偏误),通过反复测量所得观测值的平均值能精确地接近真实值(Duncan, 1984; Stigler, 1986)。在这种情况下,均值就是回归方程的最小二乘解。

在总体科学(比如社会科学)中,观测到的y值各不相同,其原因不仅在于测量误差,而且在于它们是同一总体中本质上不同的个体。如果我们关注于对单一量的估计,我们可以运用相同的估计技巧来估计总体均值。这里,μ=Ey),这一总体中的每个个体yi都各不相同。即使没有测量误差,我们仍然可以得到不同的观测值yi。其中,εi表示第i个观测值与总体均值的偏差。由于同一总体中不同的个体对应不同的y值,采用随机(科学)抽样的方法抽取样本并用样本均值去估算总体均值是十分必要的。总体均值是研究中常常求得的众多数值之一。

对于第一种情况,观测数据都是通过一个固定且普适的机制生成的,这种回归分析方法被称为“高斯方法”。对于第二种情况,其重点在于用最简洁的描述概括总体差异,这种回归分析方法被称为“加尔顿方法”。邓肯敏锐地觉察到两者之间的区别。在《关于社会测量的注释:从历史和批判的角度》(1984)一书中,邓肯借用埃奇渥斯关于观测值和统计量之间区别的定义,即:观测值是一系列围绕真实值的量,而统计量则是同一总体内的不同量。邓肯进而赞同杰文斯的提法,即:我们要对“平均数”与“均值”加以区分,后者与观测量密切相关,而前者则与统计量密切相关(Duncan, 1984: 108)。尽管这两种方法都采用相同的估算过程(比如最小二乘法),但他们的研究目标、研究隐含的假设和对结果的解释有着本质区别。

如果追溯到早期关于路径分析和结构方程的研究,我们可以清楚地看到邓肯一直在用总体逻辑思维进行思考。但这一点并不总是被后继的学者们所领悟与赞赏。我将通过对邓肯和布拉洛克(Hubert M. Blalock)的比较来进一步阐述这一观点。布拉洛克是另一位社会学方法论的鼻祖,他受到赫伯特·西蒙(Herbert Simon)的影响,早于邓肯开始研究因果推理模型。其实,这一比较是邓肯最先做出的。他在早期给我的一封信(1988年4月26日)中附带了他写给统计学家大卫·弗里德曼的回复。谈到我关于弗朗茨·博厄斯(Franz Boas)的文章(Xie, 1988),邓肯写道:“着重强调总体而非类型逻辑思维的观点意义重大。然而我没有能力说服布拉洛克。”

邓肯和布拉洛克均为路径分析和结构方程模型研究的奠基人,但他们对于因果模型的应用却意见相左,邓肯本人也承认这一分歧。布拉洛克认为,这类模型至少可以使人理想性地在“本质的世界”这一框架中去理解普适真理。例如,布拉洛克在其著名的《非实验性研究中的因果推理》(1961)一书中提出这样的问题,即:“为什么不先根据这些理想的模型和完全封闭的系统来建构我们的因果定律和其他理论,之后再去关注现实世界偏离这个模型多少呢?”(Blalock, 1961: 17)在本书之后的章节中布拉洛克还提到,“是回归系数告诉了我们科学的定律”(Blalock, 1961: 51)。我将这种观点称为“高斯模型”回归。此方法认为回归代表了一种唯一、真实且具有定律性质的关系。所有个体观测值的偏差均由无法预测的干扰因素造成。列伯逊和林恩(Lieberson and Lynn, 2002)将这种模仿物理学方法建立社会科学的想法形象地描述为“误入歧途”。

邓肯和布拉洛克对路径分析和回归模型的理解是截然不同的。邓肯不希望将因果关系强加在对结果的解释上。例如,在他与彼得·布劳(Peter Blau)合作的关于代际流动这一最为著名的研究中,两人阐述道:“我们现在还远未达到可以信心十足地进行因果推理的地步,这里提出的方案最多仅能作为对于准确的因果模型的粗略、近似的估计”(Blau and Duncan, 1967: 172)。在他开创性的论文《路径分析》一文的摘要中,邓肯强调,“路径分析旨在强调如何解释结果,而非提供寻找原因的方法”(Duncan, 1966: 1)。此处,邓肯所指的正是加尔顿的回归模型。

高斯和加尔顿的这两种泾渭分明的观点,也体现了邓肯和大卫·弗里德曼两人长期以来在一系列书信往来中的分歧。他们互通信件始于弗里德曼对邓肯在社会科学中运用路径分析的批判。弗里德曼最初批判的对象是布劳和邓肯(1967)的合著,但后来他改变了批判的对象(Freedman, 1987)。

弗里德曼第一次与邓肯通信是在1983年5月31日,这也是他第一次对路径分析进行批判。他批驳的焦点是,结构方程模型在社会科学中被滥用,因为他们假设了一个不能被证实的因果模型的存在(遵循柏拉图的型相论)。邓肯的回信(1983年6月2日)很委婉,信中说道:“在过去的日子里,我渐渐意识到它的种种不足。对于您所引用的我于1975年出版的教材,我也增长了些许见解。由此,我去掉了所有的实证例子,现在,我手边也没有任何例子可以证明这一方法是有效的。”邓肯还将他1984年即将出版的《关于社会测量的注释:从历史和批判的角度》一书的最后一章发给弗里德曼,同时指出其中的一部分是“参考了您(弗里德曼)的意见写的”。

邓肯毫无反驳的回信给弗里德曼留下了深刻的印象,他在随后给邓肯的信(1983年6月13日)中写道:“如果我处在你的角度,我绝对无法表现得如此大度。我不愿意别人将我对你的批评视为乘人之危。”此后这两位同仁交往频繁,除通过信件交流外,还见面交流了几次。胡克定律(Hooke's Law)就是他们所讨论的一个话题。在弗里德曼看来,“如果数据的产生服从胡克定律,则回归可以被用于推理”(1986年3月3日弗里德曼写给邓肯的信)。邓肯对此持有异议,“如果回归只能被 ‘胡克定律’证实的话,我看不出计算教育的收入回报有任何意义”(1986年2月25日邓肯写给弗里德曼的信)。

1985年12月6日邓肯给弗里德曼写了一封长达5页的信,详细阐述了自己对于社会科学应用回归分析的观点。信中精彩的一段凸显了他与弗里德曼的分歧,邓肯说:


我们的工作被奈曼称为“总体科学”,统计方法在此科学中与在“严格意义上的”科学中有着不同的含义和功能。我希望您可以举出一个典型的成功例子,来说明气象学家、地质学家和生态学家在这种情况下是如何有效地处理所收集到的杂乱无章的观测数据的:当无法在严格意义上重复同一研究,而同时又需要对多个统计量进行估计,并且人为干预几乎不可能或是其效果微不足道的时候。


在他们通信的后期,尽管邓肯和弗里德曼的观点仍旧存在分歧,但他们已经习惯于接纳这种分歧。弗里德曼在一封信(1986年4月25日弗里德曼写给邓肯的信)中承认:“您对于高斯和加尔顿回归传统的区分似乎是正确的。”弗里德曼代表了遵循柏拉图的类型逻辑思维的高斯传统,我并不是说弗里德曼是柏拉图主义者。他自称是“经验主义者,或是实证主义者,或是现实主义者,或是培根主义者”(2005年10月28日,个人通信)。弗里德曼的观点是,高斯方法的观点可以作为通过回归进行因果推论的依据,这也是社会科学惯有的观点。弗里德曼在2005年出版的书中对社会科学中回归分析的应用进行了总结,并提出了最新的观点(Freedman, 2005)。而邓肯则代表了遵循达尔文的总体逻辑思维的加尔顿传统。基本方向的不同导致他们对社会科学研究中回归分析作用的观点截然不同。