3.2 多重回归分析中的参数估计及其相关概念的介绍
本小节以两个自变量的多重回归分析为例,说明偏回归系数的估计公式及意义。
我们称公式(3.4)是因变量Y在自变量X1,X2上的二重回归模型。它的预测方程式为
误差为
类似线性回归分析,多重回归的偏回归系数也可用最小二乘法求得。最小二乘法的基本思想是令误差平方和取最小值时求出各个偏回归系数的估计式。这里直接展示最小二乘法的结果。
β0,β1,β2的估计式分别为:
观察上面三个估计式,我们发现两个自变量的偏回归系数结构远比一个自变量的线性回归系数复杂得多。例如,公式(3.5a)是β1的估计式b1,等号右边的第一部分是因变量Y与自变量X1的标准差之比,第二部分包含了因变量Y与X1,X2的相关系数ryx1,ryx2及自变量间的相关系数rx1x2。
现在对b1稍做变形
式中,等号右边的第一部分的分母是除去了X2影响后变量X1(记为(X1|X2))的标准差,而乘号后面的部分是因变量Y与(X1|X2)的半偏相关系数或部分相关系数(part correlation co-efficient),于是
它表示X2不变时,X1每增加一个单位,引起因变量Y平均变化的数量。
同理,对b2的分解也是如此:
它表示X1不变时,X2每增加一个单位,引起因变量Y平均变化的数量。
公式(3.5a)中,等号右边的第一部分是因变量Y与自变量X1的标准差之比,如果因变量Y与自变量X1的标准差均为1,这部分的比值等于1。我们把这一条件下的偏回归系数称为标准偏回归系数(standardized partial regression coefficient),它们与偏回归系数的关系为
标准偏回归系数=偏回归系数×(自变量标准差÷因变量标准差)。
那么,公式(3.5a)所对应的标准偏回归系数可表示为
同样,b2的标准偏回归系数为
显然,标准偏回归系数结构简单,消除了因变量、自变量方差不一致的影响,成为无单位的多个相关系数的函数,方便比较数值的大小。
在上面的介绍中,我们第一次接触了半偏相关系数。表达式为
另外,偏相关系数是从两个变量中排除了同一第三变量的影响后的相关系数。表达式为
图3.1显示了半偏相关与偏相关系数的异同。
图3.1 半偏相关系数与偏相关系数的区别与联系
半偏相关与偏相关系数在多元变量分析中是很常见的概念,SPSS等统计软件在估计多重回归系数时,计算机会报告这两类相关系数的计算结果,希望读者熟悉它们的统计意义。
相关的半偏相关系数、偏相关系数、标准偏回归系数三者的正负号一致,如果这三个指标中有一个等于0,则其余两个也一定为0。半偏相关系数的绝对值不会大于偏相关系数和标准偏回归系数的绝对值,但是,偏相关系数与标准偏回归系数的绝对值之间不存在必然的大小关系。
我们使用p(p≥2)个自变量,对某个因变量Y进行多重回归分析时,它们的每个偏归系数的估计式也可用最小二乘法获得,但是它们的表达式就无法像公式(3.5)那么具了,它们可以用更简洁的矩阵形式来表示。例如,各个X的偏回归系数b1,b2,……,bp用一向量表示的话[2],
截距