第七节 相关分析
一、相关关系的概念
自然界中的许多现象之间是有一定联系的。例如降水与径流之间,上下游洪水之间,水位与流量之间等都存在着一定的联系。相关分析就是要研究两个或多个随机变量之间的联系。
在水文计算中,我们经常遇到某一水文要素的实测资料系列很短。而与其有关的另一要素的资料却比较长,这样我们就可以通过相关分析来把短期系列延长。此外,在水文预报中也经常采用相关分析的方法。
不过在相关分析时,必须先分析一下它们在成因上是否确有联系,否则把毫无关联的现象,只凭其数字上的偶然巧合,硬凑出它们之间的关系,那是唯心的、毫无意义的。
两种现象(变量)之间的关系一般可以有3种情况:
1.完全相关(函数关系)
两个变量x与y之间,如果每给定一个x值,就有一个完全确定的y值与之对应,则这两个变量之间的关系就是完全相关(或称函数关系)。其相关的形式为直线关系或曲线关系(见图3-10)。
图3-10 相关关系示意图
(a)直线相关;(b)曲线相关
2.零相关(没有关系)
两变量之间毫无联系,或某一现象的变化不影响另一现象的变化,这样两个变量之间的关系为零相关或没有关系(见图3-11)。
3.相关关系
若两个变量之间的关系界于完全相关和零相关之间,则称为相关关系。在水文计算中,由于影响水文现象的因素错综复杂,有时为简便起见,只考虑其中最主要的一个因素而略去其次要因素,例如径流与相应的降雨量之间的关系,或同一断面的流量与相应水位之间的关系等。如果把它们的对应数值点绘在方格纸上,便可看出这些点子虽有点散乱,但其平均关系还是有一个明显的趋势,这种趋势可以用一定的曲线(包括直线)来配合,如图3-12所示。这便是简单的相关关系。
图3-11 零相关示意图
图3-12 完全相关示意图
以上研究两个变量(现象)的相关关系,一般称为简单相关。若研究3个或3个以上变量(现象)的相关关系时,则称为复相关。在相关关系的图形上可分为直线相关和非直线相关两类。在水文计算中常用的是简单相关,水文预报中常用复相关。本节以研究简单相关中的直线相关为主,并简述一下复相关。
二、简单直线相关
(一)相关图解法
设xi、yi代表两系列的观测值,共有n对,把对应值点绘于方格纸上,如果点据的平均趋势近似于直线,则可用直线来近似地代表这种相关关系。若点据分布较集中,可以直接利用作图的方法求出相关直线,叫做相关图解法。此法是先目估通过点群中间及(, )点,绘出一条直线,然后在图上量得直线的斜率b,直线与纵轴的截距a,则直线方程式y=a+bx即为所求的相关线方程。该法简便实用,一般精度尚可。
现以某站年降雨量和年径流量资料的相关分析为例,说明相关图的绘制。该站年降雨量x和年径流量y的同期资料如表3-5所示。
表3-5 某站年降雨量和年径流量资料
根据设计要求,需要延长该站的年径流量y。从物理成因上分析,同一站的年降雨量和年径流量确有联系,根据过去水文分析计算的经验可知,它们之间的关系可近似为直线关系,又从水文年鉴上看该站年降雨量资料较长,因此可以作相关分析。用年降雨量资料延长年径流量资料。现以年降雨量x为横坐标,以年径流量y为纵坐标,将表3-5中各年数值点绘于图上得12个相关点子,如图3-13所示。从图上可以看出,这些相关点子分布基本上呈直线趋势。因此,可以通过点群中间按趋势目估绘出相关直线(如图3-13中的①线)。因为我们的目的是由较长期的年降雨量资料延长较短期的年径流量资料y,所以,在定线时要尽量使各相关点子距离所定直线的纵向离差(Δyi)的平方和()最小。
图3-13 某站所降雨量和年径流量相关图
(二)相关计算法
如果相关点据分布较散,目估定线存在一定的任意性,为了精确起见,最好采用分析法来确定相关线的方程。设直线方程的形式为
式中:x为自变量;y为倚变量;a、b为待定常数。
从图3-13可以看出,观测点与配合的直线在纵轴方向的离差为
Δyi=yi-y^i=yi-a-bxi
要使直线拟合“最佳”须使离差Δyi的平方和为“最小”。即使
为极小值。欲使上式取得极小值,可分别对a及b求一阶导数,并使其等于零。
解得)
式中:σx、σy为x、y系列的均方差;、为x、y系列的均值;r为相关系数,表示x、y之间关系的密切程度。
将式(3-50)、式(3-51)代入式(3-48)中,得
此式称为y倚x的回归方程式,它的图形称为回归线,如图3-13中的②线所示。
rσy/σx是回归线的斜率,一般称为y倚x的回归系数,并记为Ry/x即
必须注意,由回归方程所定的回归线只是观测资料平均关系的配合线,观测点子不会完全落在此线上,而是分布于两侧,说明回归线不能完完全全代表两变量间的关系,它只是在一定标准情况下与实测点的最佳配合线。
以上讲的是y倚x的回归方程,即x为自变量,y为倚变量,应用于由x求y。
若以y求x,则要应用x倚y的回归方程。同理,可推得x倚y的回归方程为
(三)相关分析的误差
1.回归线的误差
回归线仅是观测点据的最佳配合线,因此回归线只反映两变量间的平均关系,利用回归线来插补延长系列时,总有一定的误差。这种误差有的大,有的小,根据误差理论,其分布一般是服从正态分布。为了衡量这种误差的大小,常采用均方误来表示,如用Sy表示y倚x回归线的均方误,yi为观测点据的纵坐标,yi为由xi通过回归线求得的纵坐标,n为观测项数,则
同样,x倚y回归线的均方误Sx为
式(3-57)、式(3-58)皆为无偏估值公式。
回归线的均方误Sy与变量的均方差σy,从性质上讲是不同的。前者是由观测点与回归线之间的离差求得,而后者则由观测点与它的均值之间的离差求得。根据统计学上的推理,可以证明两者具有下列关系:
图3-14 y倚x回归线的误差范围
正如以上所指出的,由回归方程式算出的y^i值,仅仅是许多yi的一个“最佳”拟合或平均趋势。按照误差原理,这些可能的取值yi落在回归线两侧一个均方误差范围内的概率为68.27%,落在3个均方误差范围内的概率为99.7%,如图3-14所示。
必须指出,在讨论上述误差时,没有考虑样本的抽样误差。事实上,只要用样本资料来估计回归方程中的参数,抽样误差就必然存在。可以证明,这种抽样误差在回归线的中段较小,而在上下段较大,在使用回归线时,对此必须给予注意。
2.相关系数及其误差
(1)相关系数。相关系数表明两变量的相关程度。由式(3-50)可知
将式(3-51)代入式(3-49),并利用式(3-61)化简后可得
其中,因为A、B均为正值,由(3-62)可知:A≥B
所以
将式(3-61)代入上式得
据式(3-64)可作如下判断:
1)当∑(yi-y^i)2=0时,所有观测点都位于一直线上,两变量间具有函数关系,由式(3-62)知,此时A=B。因此r2=1,r=±l。这种情况就是前面说的完全相关。
2)当∑(yi-y^i)2越大时,A值越大于B值,则r2越小,至r=0时,即为零相关。
3)当∑(yi-y^i)2介于上述两种情况之间时,r2介于0与1之间,其大小视A、B的差值而定,r的绝对值越大,其相关程度越密切。
从以上分析可知,在直线相关的情况下,r可以表示两变量相关的密切程度,所以将r作为直线相关密切程度的指标。但是相关系数r不是从物理成因推导出来的,而是从直线拟合点据的离差概念推导出来的,因此当r=0(或接近于零)时,只表示两变量间无直线关系存在,但仍可能存在非直线关系。此时应根据相关图上点据的趋势另拟相关曲线。
(2)相关系数的误差。在相关分析计算中,相关系数是根据有限的实际资料(样本)计算出来的,必然会有抽样误差。一般通过相关系数的均方误来判断样本相关系数的可靠性,按统计原理相关系数的均方误为
最后,谈谈在相关分析计算时应注意的几点:
1)应分析论证两种变量在物理成因上确实存在着联系。
2)同期观测资料不能太少,一般要求n在12以上,否则抽样误差太大,影响成果的可靠性。
3)在水文计算中,一般要求相关系数|r|>0.8,且回归线的均方误Sy不大于均值 的10%~15%。
4)在插补延长资料时,如需用到回归线上无实测点控制的外延部分,应特别慎重。
【例3-3】 以表3-7中某站的年降雨量与年径流量资料为例,说明回归方程的建立与应用。
相关分析的目的是以较长期的年降雨量资料延长较短的年径流资料,所以这里以年降雨量为自变量x,年径流量为倚变量y。为使计算条理化,并便于检查校核,相关计算采用列表法进行,如表3-6所示。
表3-6 某站年降雨量与年径流量相关计算表
由表3-6的计算成果,可进一步算出以下各值。
1)均值。
2)均方差。
3)相关系数。
4)回归系数。
5)y倚x的回归方程。
6)回归直线的均方误。
即占的12.4%(介于10%~15%之间)。
7)相关系数的误差。
说明两变量间的相关关系尚好。
如将方程式所定直线绘在图上,得图3-13中的②线。①线和②线未能完全重合,说明相关计算法与相关图解法有一定误差。但两线相差很小,这又说明如果处理得当,图解相关法也可得到比较满意的结果。图中还可看出,如果将相贯线外延时,两者差别将逐渐增大。
从式(3-53)和式(3-55)还可看出,回归线有一个特性,这就是它必然通过变量x、y的均值点,),如图3-14所示。因此,当我们用图解法定线时,掌握这一特性,可使图解定线更有把握一些。
作出了相关线,便可由已知的自变量x值,从相关线上查得(或代入回归方程算出)相应的倚变量y值。
如上例中某站虽然只有1954—1965年共12年的径流量和降雨同期观测资料,但降雨资料却比较长,是从1932年开始的。把1932—1953年的各年降雨量代入回归方程中,可以把该站年径流量资料也展延至34年(1932—1965年),如表3-7所示。表中1932—1953年的各年年径流量,就是通过这种相关计算的方法得到的。
表3-7 某站年径流量展延成果表
三、曲线相关
在水文计算中常常会碰到两变量的关系不是直线相关,而是某种形式的曲线相关,如水位-流量关系,流域面积-洪峰流量关系等。遇此情况,水文计算上多采用曲线直线化的方法。水文上最常用的有下述两种曲线。
1.幂函数
幂函数的一般形式为
两边取对数,并令lgy=Y,lga=A,lgx=X。则有:
对X和Y而言这就是直线关系了。因此,如果将随机变量各点取对数,在方格纸上点绘(lgx1,lgy1),(l gx2、lgy2),…各点,或者在双对数格纸上点绘(x1、y1),(x2、y2),…各点,这样,就可照上面所讲述的方法,作直线相关分析。
2.指数函数
指数函数的一般形式为
两边取对数,并令lgy=Y,lga=A,blge=B。则有:
这样对X和Y同样也可作直线相关分析。
四、复相关
研究3个或3个以上变量的相关,称为复相关,又称多元相关。在简单相关中,只研究一种现象受另一种主要现象的影响,而将其他因素忽略。但是,如果主要影响因素不只一个,且其中任何一个都不宜忽视,此时就不能用简单相关,而要应用复相关了。
图3-15 复相关示意图
复相关的计算,在工程上多用图解法选配相关线。例如图3-15中,倚变量z受自变量x和y两变量的影响。可以根据实测资料点绘出z和x的对应值于方格纸上,并在点旁注明y值,然后做出y值相等的“y等值线”,这样点绘出来的图,就是复相关关系图。它与简单相关图的区别就在于多了一个自变量,即z值不单是倚x而变,同时还倚y而变,因此在使用此图插补(延长)z值时,应先在x轴上找出xi值,并向上引垂线至相应的yi值,然后便可查得zi值。除图3-15所示的复相关图外,还有复曲线相关图。这种复相关图形(直线和曲线)在水文计算和水文预报中经常会遇到,如第五章中的降雨径流相关图。复相关计算除用图解法以外,还可用分析法,但非常繁杂。除了复直线回归分析外,其他分析法不大应用。最常用的是两个自变量的复直线回归分析。有关多个自变量的复直线回归分析,其原理与前面的一元回归分析大致相同,所不同的是直线方程中系数(回归系数)的确定需解更为复杂的线性代数方程组。有关这方面的内容,可参考有关数学书籍。