2.2 实验数据的处理方法
实验数据处理,就是以测量为手段,以数学运算为工具,推断出某量值的真值,并导出某些具有规律性结论的整个过程。因此对实验数据进行处理,可使人们清楚地观察到各变量之间的定量关系,以便进一步分析实验现象,得出规律,指导生产与设计。
数据处理的方法有三种:列表法、图示法和回归分析法。
2.2.1 列表法
将实验数据按自变量和因变量的关系,以一定的顺序列出数据表,即为列表法。列表法有许多优点,如为了不遗漏数据,原始数据记录表会给数据处理带来方便;列出数据使数据易比较;形式紧凑;同一表格可以表示几个变量间的关系等。列表通常是整理数据的第一步,为标绘曲线图或整理成数学公式打下基础。
(1)实验数据表的分类
实验数据表一般分为两大类:原始数据记录表和整理计算数据表。以阻力实验测定层流λ-Re关系为例进行说明。
原始数据记录表是根据实验的具体内容而设计的,以清楚地记录所有待测数据。该表必须在实验前完成。层流阻力实验原始数据记录表如表2-3所示。
表2-3 层流阻力实验原始数据记录表
整理计算数据表可细分为中间计算结果表(体现出实验过程主要变量的计算结果)、综合结果表(表达实验过程中得出的结论)和误差分析表(表达实验值与参照值或理论值的误差范围)等,实验报告中要用到几个表,应根据具体实验情况而定。层流阻力实验整理计算数据表见表2-4,误差分析结果表见表2-5。
表2-4 层流阻力实验整理计算数据表
表2-5 层流阻力实验误差分析结果表
(2)设计实验数据表应注意的事项
①表格设计要力求简明扼要,一目了然,便于阅读和使用。记录、计算项目要满足实验需要,如原始数据记录表格上方要列出实验装置的几何参数以及平均水温等常数项。
②表头列出物理量的名称、符号和计算单位。符号与计量单位之间用斜线(“/”)隔开。斜线不能重叠使用。计量单位不宜混在数字之中,造成分辨不清。
③注意有效数字位数,即记录的数字应与测量仪表的准确度相匹配,不可过多或过少。
④物理量的数值较大或较小时,要用科学计数法表示。以“物理量的符号×10±n/计量单位”的形式记入表头。注意:表头中的10±n与表中的数据应服从下式:
物理量的实际值×10±n=表中数据
⑤为便于引用,每一个数据表都应在表的上方写明表号和表题(表名)。表号应按出现的顺序编写并在正文中有所交代。同一个表尽量不跨页,必须跨页时,在跨页的表上须注“续表”。
⑥数据书写要清楚整齐。修改时宜用单线将错误的划掉,将正确的写在下面。各种实验条件及作记录者的姓名可作为“表注”,写在表的下方。
2.2.2 图示法
实验数据图示法就是将整理得到的实验数据或结果标绘成描述因变量和自变量的依从关系的曲线图。该法的优点是直观清晰、便于比较,容易看出数据中的极值点、转折点、周期性、变化率以及其他特性,准确的图形还可以在不知数学表达式的情况下进行微积分运算,因此得到广泛的应用。
实验曲线的标绘是实验数据整理的第二步,在工程实验中正确作图必须遵循如下基本原则,才能得到与实验点位置偏差最小而光滑的曲线。
(1)坐标纸的选择
①坐标系 化工中常用的坐标系为直角坐标系、单对数坐标系和双对数坐标系。下面仅介绍单对数坐标系和双对数坐标系。
a.单对数坐标系。如图2-5所示。一个轴是分度均匀的普通坐标轴,另一个轴是分度不均匀的对数坐标轴。
图2-5 单对数坐标图
b.双对数坐标系。如图2-6所示。两个轴都是对数标度的坐标轴。
图2-6 双对数坐标图
②选用坐标纸的基本原则
a.直角坐标纸 变量x、y间的函数关系式为y=a+bx。
即为直线函数型,将变量x、y标绘在直角坐标纸上得到一直线图形,a、b不难由图求出。
b.单对数坐标 在下列情况下,建议使用单对数坐标纸。
ⅰ.变量之一在所研究的范围内发生了几个数量级的变化。
ⅱ.在自变量由零开始逐渐增大的初始阶段,当自变量的少许变化引起因变量极大变化时,采用单对数坐标可使曲线最大变化范围伸长,使图形轮廓清楚。
ⅲ.当需要变换某种非线性关系为线性关系时,可用单对数坐标。如将指数型函数变换为直线函数关系。若变量x、y间存在指数函数型关系,则有:
y=aebx
式中,a、b为待定系数。
在这种情况下,若把x、y数据在直角坐标纸上作图,所得图形必为一曲线。若对上式两边同时取对数
则 lgy=lga+bxlge
令 lgy=Y
blge=k
则上式变为 Y=lga+kx
经上述处理变成了线性关系,以lgy=Y对x在直角坐标纸上作图,其图形也是直线。为了避免对每一个实验数据y取对数的麻烦,可以采用单对数坐标纸。因此可以说把实验数据标绘在单对数坐标纸上,如为直线的话,其关联式必为指数函数型。
c.双对数坐标 在下列情况下,建议使用双对数坐标纸。
ⅰ.变量x、y在数值上均变化了几个数量级。
ⅱ.需要将曲线开始部分划分成展开的形式。
ⅲ.当需要变换某种非线性关系为线性关系时,例如幂函数。变量x、y若存在幂函数关系式,则有
y=axb
式中,a、b为待定系数。
若直接在直角坐标系上作图必为曲线,为此把上式两边同时取对数
lgy=lga+blgx
令 lgy=Y,lgx=X
则上式变换为 Y=lga+bX
根据上式,把实验数据x、y取对数lgx=X,lgy=Y,在直角坐标纸上作图也得一条直线。同理,为了解决每次取对数的麻烦,可以把x、y直接标在双对数坐标纸上,所得结果完全相同。
(2)坐标分度的确定
坐标分度指每条坐标轴所代表的物理量大小,即选择适当的坐标比例尺。
①为了得到良好的图形,在x、y的误差Δx、Δy已知的情况下,比例尺的取法应使实验“点”的边长为2Δx、2Δy(近似于正方形),而且使2Δx=2Δy=1~2mm,若2Δx=2Δy=2mm,则它们的比例尺应为
如已知温度误差ΔT=0.05℃,则
此时温度1℃的坐标为20mm长,若感觉太大可取2Δx=2Δy=1mm,此时1℃的坐标为10mm长。
②若测量数据的误差不知道,那么坐标的分度应与实验数据的有效数字大体相符,即最适合的分度是使实验曲线坐标读数和实验数据具有同样的有效数字位数。其次,横、纵坐标之间的比例不一定取得一致,应根据具体情况选择,使实验曲线的坡度介于30°~60°,这样的曲线坐标读数准确度较高。
③推荐使用坐标轴的比例常数M=(1、2、5)×10±n(n为正整数),而3、6、7、8、9等的比例常数绝不可选用,因为后者的比例常数不但引起图形的绘制和实验麻烦,也极易引出错误。
(3)图示法应注意的事项
①对于两个变量的系统,习惯上选横轴为自变量、纵轴为因变量。在两轴侧要标明变量名称、符号和单位,如离心泵特性曲线的横轴须标明:流量Q/(m3/h)。尤其是单位,初学者往往因受纯数学的影响而容易忽略。
②坐标分度要适当,使变量的函数关系表现清楚。
直角坐标的原点不一定选为零点,应根据所标绘数据范围而定,其原点移至比数据中最小者稍小一些的位置为宜,能使图形占满全幅坐标线为原则。
对于对数坐标,坐标轴刻度是按1,2,…,10的对数值大小划分的,其分度要遵循对数坐标的规律,当用坐标表示不同大小的数据时,只可将各值乘以10n(n取正、负整数)而不能任意划分。对数坐标的原点不是零。在对数坐标上1、10、100、1000之间的实际距离是相同的,因为上述各数相应的对数值为0、1、2、3,这在线性坐标上的距离相同。
③实验数据的标绘。若在同一张坐标纸上同时标绘几组测量值,则各组要用不同符号(如○、△、×等)以示区别。若n组不同函数同时绘在一张坐标纸上,则在曲线上要标明函数关系名称。
④图必须有图号和图题(图名),图号应按出现的顺序编写,并在正文中有所交代。必要时还应有图注。
⑤图线应光滑。利用曲线板等工具将各离散点连接成光滑曲线,并使曲线尽可能通过较多的实验点,或者使曲线以外的点尽可能位于曲线附近,并使曲线两侧的点数大致相等。
2.2.3 数学方程表示法
在实验研究中,除了用表格和图形描述变量间的关系外,还常把实验数据整理成方程式,以描述过程或现象的自变量和因变量之间的关系,即建立过程的数学模型。其方法是将实验数据绘制成曲线,与已知的函数关系式的典型曲线(线性方程、幂函数方程、指数函数方程、抛物线函数方程、双曲线函数方程等)进行对照选择,然后用图解法或者数值方法确定函数式中的各种常数。所得函数表达式是否能准确地反映实验数据所存在的关系,应通过检验加以确认。运用计算机将实验数据结果回归为数学方程已成为实验数据处理的主要手段。
(1)数学方程式的选择
数学方程式选择的原则是:既形式简单、所含常数较少,同时也希望能准确地表达实验数据之间的关系,但要满足两者条件往往难以做到,通常是在保证必要的准确度的前提下,尽可能选择简单的线性关系或者经过适当方法转换成线性关系的形式,使数据处理工作得到简单化。
数学方程式选择的方法是:将实验数据标绘在普通坐标纸上,得一直线或曲线。如果是直线,则根据初等数学可知,y=a+bx,其中a、b值可由直线的截距和斜率求得。如果不是直线,也就是说,y和x不是线性关系,则可将实验曲线和典型的函数曲线相对照,选择与实验曲线相似的典型曲线函数,然后用直线化方法处理,最后以所选函数与实验数据的符合程度加以检验。
直线化方法就是将函数y=f(x)转化成线性函数Y=a+bX的方法。如2.2.2节所述的幂函数和指数函数转化成线性方程的方法。
常见函数的典型图形及线性化方法列于表2-6。
表2-6 化工中常见函数的典型图形及线性化方法
(2)图解法求公式中的常数(对直线化方法而言)
当公式选定后,可用图解法求方程式中的常数,本节以幂函数和指数函数、对数函数为例进行说明。
①幂函数的线性图解 幂函数y=axb经线性化后成为Y=lga+bX。
a.系数b的求法 系数b即为直线的斜率,如图2-7所示的AB线的斜率。在对数坐标上求取斜率的方法与直角坐标上的求法不同。因为在对数坐标上标度的数值是真数而不是对数,因此双对数坐标纸上直线的斜率需要用对数值来求算,或者在两坐标轴比例尺相同情况下直接用尺子在坐标纸上量取线段长度来求取。
图2-7 求取线段AB斜率的示意图
式中,Δy与Δx的数值即为尺子测量而得的线段长度。
b.系数a的求法 在双对数坐标上,直线x=1处的纵坐标轴相交处的y值,即为方程y=axb中的a值。若所绘的直线在图面上不能与x=1处的纵坐标轴相交,则可在直线上任取一组数值x和y(而不是取一组测定结果数据)和已求出的斜率b,代入原方程y=axb中,通过计算求得a值。
②指数或对数函数的线性图解法 所研究的函数关系为指数函数y=aebx或对数函数y=a+blgx时,将实验数据标绘在单对数坐标纸上的图形是一直线。线性化方法见表2-6中的3和6。
a.系数b的求法 对y=aebx,线性化为Y=lga+kx,式中k=blge,其纵坐标轴为对数坐标,斜率为:
对y=a+blgx,横坐标轴为对数坐标,斜率为:
b.系数a的求法 系数a的求法与幂函数中所述方法基本相同,可用直线上任一点处的坐标值和已经求出的系数b代入函数关系式后求解。
③二元线性方程的图解 若实验研究中,所研究对象的物理量是一个因变量与两个自变量,它们必呈线性关系,则可采用以下函数式表示:
y=a+bx1+cx2 (2-40)
在图解此类函数式时,应首先令其中一自变量恒定不变,例如,使x1为常数,则式(2-40)可改写成:
y=d+cx2 (2-41)
式中, d=a+bx1=const
由y与x2的数据可在直角坐标中标绘出一条直线,如图2-8(a)所示。采用图解法即可确定x2的系数c。
图2-8 二元线性方程图解示意图
在图2-8(a)中直线上任取两点e1(x21,y1)、e2(x22,y2),则有:
当c求得后,将其代入式(2-40)中,并将式(2-40)重新改写成以下形式:
y-cx2=a+bx1 (2-43)
令y'=y-cx2可得一新的线性方程:
y'=a+bx1 (2-44)
由实验数据y、x2和c计算得y',由y’与x1在图2-8(b)中标绘其直线,并在该直线上任取及两点。由f1、f2两点即可确定a、b两个常数。
应该指出的是,在确定b、a时,其自变量x1、x2应同时改变,才能使其结果覆盖整个实验范围。
薛伍德(Sherwood)利用七种不同流体对流过圆形直管的强制对流传热进行研究,并取得大量数据,采用幂函数形式进行处理,其函数形式为:
Nu=BRemPrn (2-47)
式中,Nu随Re及Pr而变化。将上式两边同时取对数,采用变量代换,使之化为二元线性方程形式:
lgNu=lgB+mlgRe+nlgPr (2-48)
令y=lgNu;x1=lgRe;x2=lgPr;a=lgB,式(2-48)即可表示为二元线性方程式:
y=a+mx1+nx2 (2-49)
现将式(2-48)改写为以下形式,确定常数n(固定变量Re值,使Re=const,自变量减少一个)。
lgNu=(lgB+mlgRe)+nlgPr (2-50)
薛伍德固定Re=104,七种不同流体的实验数据在双对数坐标纸上标绘Nu和Pr之间的关系如图2-9(a)所示。实验表明,不同Pr数的实验结果,基本上是一条直线,用这条直线决定Pr准数的指数n(n=4),然后在不同Pr数及不同Re数下实验,按式(2-51)图解法求解:
lg(Nu/Prn)=lgB+mlgRe (2-51)
图2-9 Nu=BRemPrn图解法示意图
以Nu/Prn对Re数,在双对数坐标纸上作图,标绘出一条直线,如图2-9(b)所示。由这条直线的斜率和截距决定B和m值。这样,经验公式中的所有待定常数B、m和n均被确定。
(3)联立方程法求公式中的常数(对直线化方法而言)
此法又称“平均值法”,仅适用于实验数据精度很高的条件下,即实验点与理想曲线偏离较小,否则所得函数将毫无意义。
平均值法定义为:选择能使其同各测定值的偏差的代数和为零的那条曲线为理想曲线。具体步骤如下。
①选择适宜的经验公式:y=f(x)。
②建立求待定常数和系数的方程组。
现假定画出的理想曲线为直线,其方程为y=a+bx,设测定值为xi、yi,将xi代入上式,所得的y值为,即,而yi=a+bxi,所以应该是。然而,一般由于测量误差,实测点偏离直线,使。若设yi和的偏差为Δi,则
最好能引一使这个偏差值的总和为零的直线,设测定值的个数为N,由式(2-53)定出a、b,则以a、b为常数和系数的直线即为所求的理想直线。
∑Δi=∑yi-Na-b∑xi=0 (2-53)
由于式(2-53)含有两个未知数a和b,所以需将测定值按实验数据的次序分成相等或近似相等的两组,分别建立相应的方程式,然后联立方程,解之即得a、b。
【例2-4】以转子流量计标定时得到的读数与流量关系为例,求实验方程。
解 把上表数据分成A、B两组,前面5对x、y为A组,后面4对x、y为B组。
(∑x)A=0+2+4+6+8=20
(∑y)A=30.00+31.25+32.58+33.71+35.01=162.55
(∑x)B=10+12+14+16=52
(∑y)B=36.20+37.31+38.79+40.04=152.34
把这些数值代入式(2-53)
联立求解得 a=30.0b=0.620
所求直线方程为: y=30.0+0.620x
平均值法在实验数据精度不高的情况下不可使用,比较准确的方法是采用最小二乘法。
(4)实验数据的回归分析法
前面介绍了用图解法获得经验公式的过程。尽管图解法有很多优点,但它的应用范围毕竟很有限。目前应用最广泛的一种数学方法,即回归分析法。用这种数学方法可以从大量观测的散点数据中寻找到事物内部的一些统计规律,并可以用数学模型形式表达出来。回归分析法与计算机相结合,已成为确定经验公式最有效的手段之一。
回归也称拟合。对具有相关关系的两个变量,若用一条直线描述,则称一元线性回归,用一条曲线描述,则称一元非线性回归。对具有相关关系的三个变量,其中一个因变量、两个自变量,若用平面描述,则称二元线性回归,用曲面描述,则称二元非线性回归。依次类推,可以延伸到n维空间进行回归,则称多元线性回归或多元非线性回归。处理实验问题时,往往将非线性问题转化为线性问题来处理。建立线性回归方程的最有效方法为线性最小二乘法,以下主要讨论用最小二乘法回归一元线性方程。
①一元线性回归方程的求法 在科学实验的数据统计方法中,通常要从获得的实验数据(xi,yi,i=1,2,…,n)中,寻找其自变量xi与因变量yi之间的函数关系y=f(x)。由于实验测定数据一般都存在误差,因此,不能要求所有的实验点均在y=f(x)所表示的曲线上,只需满足实验点(xi,yi)与f(xi)的残差di=yi-f(xi)小于给定的误差即可。此类寻求实验数据关系近似函数表达式y=f(x)的问题称为曲线拟合。
曲线拟合首先应针对实验数据的特点,选择适宜的函数形式,确定拟合时的目标函数。例如,在取得两个变量的实验数据之后,若在普通直角坐标纸上标出各个数据点,如果各点的分布近似于一条直线,则可考虑采用线性回归求其表达式。
设给定n个实验点(x1,y1),(x2,y2),…,(xn,yn),其离散点图如图2-10所示。于是可以利用一条直线来代表它们之间的关系
图2-10 一元线性回归示意图
y'=a+bx (2-54)
式中 y'——由回归式算出的值,称回归值;
a,b——回归系数。
每一测量值xi可由式(2-54)求出一回归值y'。回归值y’与实测值yi之差的绝对值表明yi与回归直线的偏离程度。两者偏离程度越小,说明直线与实验数据点拟合越好。值代表点(x1,y1),沿平行于y轴方向到回归直线的距离,如图2-11上各竖直线di所示。
图2-11 实验曲线示意图
曲线拟合时应确定拟合时的目标函数。选择残差平方和为目标函数的处理方法即为最小二乘法。此法是寻求实验数据近似函数表达式的更为严格有效的方法。定义为:最理想的曲线就是能使各点同曲线的残差平方和为最小。
设残差平方和Q为:
其中xi、yi是已知值,故Q为a和b的函数,为使Q值达到最小,根据数学上的极值原理,只要将式(2-55)分别对a和b求偏导数、,并令其等于零即可求得a和b之值,这就是最小二乘法原理。即
由式(2-56)可得正规方程:
式中,
解正规方程(2-57),可得到回归式中的a(截距)和b(斜率)
【例2-5】仍以转子流量计标定时得到的读数与流量关系为例,用最小二乘法求实验方程。
因此,回归方程为:y=30.0+0.623x
②回归效果的检验 实验数据变量之间的关系具有不确定性,一个变量的每一个值对应的是整个集合值。当x改变时,y的分布也以一定的方式改变。在这种情况下,变量x和y间的关系就称为相关关系。
在以上求回归方程的计算过程中,并不需要事先假定两个变量之间一定有某种相关关系。就方法本身而论,即使平面图上是一群完全杂乱无章的离散点,也能用最小二乘法给其配一条直线来表示x和y之间的关系。但显然这是毫无意义的。实际上只有两变量是线性关系时进行线性回归才有意义。因此,必须对回归效果进行检验。
a.相关系数 可引入相关系数r对回归效果进行检验,相关系数r是说明两个变量线性关系密切程度的一个数量性指标。
若回归所得线性方程为:y'=a+bx
则相关系数r的计算式为(推导过程略):
r的变化范围为-1≤r≤1,其正、负号取决于∑(xi-)(yi-),与回归直线方程的斜率b一致。r的几何意义可用图2-12来说明。
图2-12 相关系数r的几何意义图
当r=±1时,即n组实验值(xi,yi),全部落在直线y=a+bx上,此时称完全相关,如图2-12(d)和(e)所示。
当0<|r|<1时,代表绝大多数的情况,这时x与y存在着一定线性关系。当r>0时,散点图的分布是y随x增加而增加,此时称x与y正相关,如图2-12(b)所示。当r<0时,散点图的分布是y随x增加而减少,此时称x与y负相关,如图2-12(c)所示。|r|越小,散点离回归线越远,越分散。当|r|越接近1时,即n组实验值(xi,yi)越靠近y=a+bx,变量与x之间的关系越接近于线性关系。
当r=0时,变量之间就完全没有线性关系了,如图2-12(a)所示。应该指出,没有线性关系,并不等于不存在其他函数关系,如图2-12(f)所示。
b.显著性检验 如上所述,相关系数r的绝对值越接近1,x、y间越线性相关。但究竟|r|接近到什么程度才能说明x与y之间存在线性相关关系呢?这就有必要对相关系数进行显著性检验。只有当|r|达到一定程度才可以采用回归直线来近似地表示x、y之间的关系,此时可以说明相关关系显著。一般来说,相关系数r达到使相关显著的值与实验数据的个数n有关。因此只有|r|>rmin时,才能采用线性回归方程来描述其变量之间的关系。rmin值可以从表2-7中查出。利用该表可根据实验点个数n及显著水平系数α查出相应的rmin。显著水平系数α一般可取1%或5%。在转子流量计标定一例中,n=9则n-2=7,查表2得:
表2-7 相关系数检验表
α=0.01时,rmin=0.798;α=0.05时,rmin=0.666。
若实际的|r|≥0.798,则说明该线性相关关系在α=0.01水平上显著。当0.789≥|r|≥0.666时,则说明该线性相关关系在α=0.05水平上显著。当实验的|r|≤0.666,则说明相关关系不显著,此时认为x、y线性不相关,配回归直线毫无意义。α越小,显著程度越高。
【例2-6】求转子流量计标定实验的实际相关系数r。
解 =8=34.9878
∑(xi-)(yi-)=149.46
∑(xi-)2=240
∑(yi-)2=93.12
说明此例的相关系数在α=0.01的水平仍然是高度显著的。