1.1 相关关系
无论相关关系还是因果关系,描述的对象均是变量之间的相互关系。变量指某个事件的抽象表示。例如,用变量H指代人的身高,变量W指代人的体重等。直观地讲,相关关系一般指变量的分布之间相似或相悖,即正向相关和负向相关。在统计学中,分布用来描述一个变量不同取值的概率,如图1-1所示的身高和体重的分布图。当同时绘制身高和体重的分布情况时,从图1-1中可以发现,身高和体重的分布趋势较为相似,此时称它们的分布是相关的。
图1-1 身高和体重的分布图
直观角度下的相关关系容易理解,但对应的具体的相关程度并不明确。自然地,我们希望更具体地描述变量之间的相关程度。相关系数是一个具体的数值,用于衡量变量的分布之间的相关程度。迄今为止,人们已经提出多种相关系数。根据需要衡量的相关关系种类的不同,分为线性相关系数和非线性相关系数,进而根据变量种类的不同,分为连续变量、离散变量和有序变量之间相互的相关系数。相关系数种类及其适用场景如表1-1所示。
表1-1 相关系数种类及其适用场景
下面着重讨论最常用的、用于衡量线性相关的Pearson相关系数(Pearson Correlation Coefficient,PCC),通过该系数来说明统计科学视角下的相关关系。PCC由统计学家卡尔·皮尔逊提出,计算方式为[1]
其中,对于任意两个变量X和Y,ρX,Y代表它们相对于各自均值偏移的内积的期望,而分母σXσY起到归一化的作用,这与直观角度下的相关关系是一致的。对于衡量两个变量的分布是否相似,PCC首先确定了一个参照点(μX,μY)来衡量每个样本点(Xi,Yi)的偏离相似性。PCC的一种理解是偏移向量的余弦相似度。余弦相似度的计算公式为,令,,则式(1-1)所示的ρX,Y与是等价的,这里称和为相对于均值的偏移向量。余弦相似度的取值范围是[-1,1],与其等价的PCC的取值范围是一致的。
根据上面的介绍,可以明确相关关系用于衡量变量的分布之间相似或相悖的趋势,进一步地,相关系数用于衡量具体的相关程度。需要注意的是,这种相关程度的衡量不是一种决定性的函数关系,如图1-2所示,区别于回归系数(第一行),当两个变量之间是固定的函数关系时,无论这个函数关系如何,它们之间的相关系数都是1或-1(第二行)[2]。
图1-2 Pearson相关系数的直观图示
正是因为相关关系只是变量的分布之间的相关程度的一种度量,所以它本身并不具备描述因果关系这种决定性指标的功能。可以将相关关系理解为一种描述表象的指标,表象是容易伪造的,同时可能具有一定的欺骗性,因此人们希望从表象中得到关于本质的规律。而表象到本质的距离便是相关关系到因果关系的距离。下面将逐步介绍这种表象与本质之间的种种迷雾,以及消除这些迷雾的方法。