1.3 数据处理的基本知识
数据处理是实验的重要组成部分,它贯穿于物理实验的始终,与实验操作、误差分析及结果评定形成一个有机的整体。因此提高数据处理的能力,掌握基本数据处理方法,对提高实验能力至关重要。
1.3.1 有效数字及其运算
(1)有效数字的概念
在实验中我们所测得的被测量都是含有误差的数值,对这些数值的尾数不能任意取舍,否则影响测量的精确度。所以在记录数据、计算以及书写测量结果时,应写出几位数字,有严格的要求,要根据测量误差或实验结果的不确定度来确定。
例如用最小分度为1mm的钢尺测量某物体的长度,正确的读法是除了确切地读出钢尺上该刻线的位数外,还应估计一位数字,即读到0.1mm量级。比如,测出某物的长度是12.4mm,这表明12是确切数字,而最后的4是估计的,是不可靠的,是存疑数字。一般来说,有效数字是由准确数字和存疑数字组成。测量数据中的存疑数字一般只取一位(特殊情况下也可取两位,这是由测量结果的不确定度来确定的)。
实验测量数值和纯数学上的数值是有区别的。数学上的数字是不考虑有效数字的,如数学上12.3=12.30,而在测量中,12.3与12.30是有差别的,前者是三位有效数字,后者是四位有效数字,它们反映了测量的不同精度。有效数字与测量条件密切相关,它的位数由测量条件和待测量的大小共同决定。一定大小的量,测量精度越高,有效数字位数越多;而测量条件一定时,被测量越大,有效数字位数越多。
写有效数字时要注意以下要点。
①测量时,一般必须在仪器的最小分度内再估读一位,若读数正好与某刻度对齐,则应该在相应估读位上记为“0”。但也有例外,如用最小分度为0.02mm的游标卡尺测长度时,只读到0.02mm;又如分度值为5μA的电表,当表指针指在1.3格处时,读成1.0μA或1.5μA都是可行的。当被测量过于粗糙时甚至不应读到分度值所在位。
②有效数字的位数与小数点位置无关,单位的SI词头改变时,有效数字的位数不应发生变化。例如,重力加速度980cm/s2,在保持有效数字不变而改变SI词头时可记为0.00980km/s2,则有效数字位数仍为三位。数值前表示小数点定位所用的“0”不是有效数字,有效数字应从非“0”的第一个数字算起,而数值后面的“0”则是有效数字,不能去掉。
③为表示方便,特别是对较大或较小的数值,常用×10n的形式(n为一正整数)书写,这样可避免有效数字写错,也便于识别和记忆,这种表示方法叫科学记数法。用这种方法记数时,在小数点前只写一位数字。
(2)有效数字的修约规则(四舍五入规则)
①测量数据中打算舍弃的最左一位数字小于5时则舍去,欲保留的各位数字不变。例如数据3.1448取三位有效数字时为3.14。
②测量数据中打算舍弃的数字的最左一位数字大于5(或等于5而其后跟有非全部为0的数字时),则应进一,即保留数字的末位加1。如3.1465001取二位有效数字时为3.1,取三位有效数字时为3.15,取四位有效数字时为3.147。
③测量数据中打算舍去的最左一位数字为5,而它后面无数字或全部为0时,若所保留数字的末位为奇数则进一,为偶数或0则舍弃。如数据3.1050取三位有效数字为3.10,数据3.15取二位有效数字则为3.2。
④负数修约时,先将它的绝对值按上述①②③规定进行修约,然后在修约值前加上负号。
以上对有效数字的修约规则可以归纳为一句话:“四舍、大于五入、缝五凑偶”。对仪器误差限、标准差及不确定度的最后结果,在去掉多余位时,一般只入不舍。如计算不确定度时计算数据为0.0316,取二位有效数字时为0.032。
(3)测量结果不确定度及有效数字位数的取法
测量值或数据处理结果的有效数字中含有可疑数字,可疑数字的数位是与测量结果的不确定度有关的。确定最后结果的有效位数的一般原则是:一次直接测量结果的有效数字由仪器的误差限决定的不确定度来确定;多次直接测量结果(算术平均值)的有效数字,或间接测量结果的有效数字由计算出来的不确定度来确定。总之,一般要由不确定度来决定有效数字的位数。对于给出的不确定度或计算出来的不确定数据,由于它本身就是一个估计数,因此一般情况下只取一位。在一些精密测量和重要测量中,不确定度可取二位。测量结果数据的最末一位取到与不确定度末位同一量级,或说测量结果数值的最后一位与不确定度的最后一位对齐。如间接测量结果为4.2958m,不确定度为0.005m,则间接测量结果取为4.296m,最后结果表示为(4.296±0.005)m。
(4)有效数字的运算
由于测量误差的存在,直接测得的数据只能是近似数,通过此近似数求得的间接测量值也是近似数。几个近似数的运算可能会增大误差。为了不因计算而引进误差,同时为了使运算更简洁,我们对有效数字的运算作如下规定:
①加减运算 先找出各数中的存疑数最靠前的,即绝对误差最大的一个,以此数的最后一位数的位置为标准,对其他数进行取舍,但在运算过程中可多保留一位。
例1 计算N=A+B+C,A=472.33,B=0.754,C=1234。
解 存疑数最靠前的是C,其可疑位在个位上,则对其它数取舍为A=472.3,B=0.8,然后相加为N=472.3+0.8+1234=1707。
②乘除运算 先找出参与运算的有效数位最少的数据,以它的有效数字位数为标准,简化参与运算的其余各数的有效数字,一般比标准多保留一位,常数应多保留两位。运算结果的有效数字位数一般与作标准的数据位数相同。
例2 计算93.52÷12;80.5×0.0014×3.0832÷764.9。
解 93.5÷12=7.8;80.5×0.0014×3.08÷765=4.5×10-4
用计算器计算时,可采取“抓两头放中间”的方法,即注重原始测量数据的读数及最后计算结果的有效数字的确定,运算过程中的数和中间结果都可适当多保留几位有效数字。参与运算的其余各数的有效数字,一般比标准多保留一位,常数应多保留两位。运算结果的有效数字位数一般与作标准的数据位数相同。
③其他运算 乘方、开方的有效数字与原数的有效数字位数相同。以e为底的自然对数,计算结果的小数点后面的位数与原数的有效数字位数相同,如ln56.7=4.038(结果的小数点后取三位)。以10为底的常用对数,计算结果的有效数字位数比lnx的结果多取一位。
指数(包括10x,ex)函数运算后的有效数字的位数可取比指数的小数点后的位数多一位,如e9.24=1.03×104(指数上的小数点后有两位,计算结果的有效数字为三位)。
对三角函数,一般角度的不确定度分别为1'、10″、1″,有效数字位数分别取四、五、六位。
对参与运算的一些特殊的准确数或常数,如倍数2、测量次数n,常数π、e等,2,n没有可疑成分,不受有效数字运算规则限制;π、e等常数的有效数字位数可任意取,一般与被测量的有效数字位数相同。
1.3.2 处理实验数据的几种方法
(1)列表法
列表法是将实验数据中的自变量和因变量的各个数据按一定的格式、秩序排列起来。有时也将一个物理量的多次测量值排列成表格。
列表可以简单明了地表示出有关物理量之间的对应关系,便于随时检查测量数据,及时发现问题和分析处理问题;并且可以找出有关量之间的规律。列表还可以提高处理数据的效率,减少或避免错误。列表时要遵循下列原则。
①简单明了,分类清楚,便于看出数据间的关系,便于归纳处理。
②在表格上方写上表格名称,在表内标题栏中注明物理量名称和单位,不要把单位写在数字后。
③数据应正确反映测量结果的有效数字。
④记录数据必须实事求是,切忌伪造或随意修改。
(2)作图法
实验所揭示的物理量之间的关系,可以用函数关系式来表示,也可用几何图线来直观地表示。作图法就是在坐标纸上描绘出一系列数据间的对应关系,再寻找与图线对应的函数形式,通过图解方法确定函数表达式——经验公式。作图法是科学实验中最常用的一种数据处理方法。为了使图线能清楚地、定量地反映出物理现象的变化规律,并能准确地从图线上确定物理量值的关系,所作的图应符合准确度要求,并要遵循一定的规则。
①坐标纸的选择。一般用方格坐标纸,坐标纸的大小根据实验数据的有效数位和数值范围来确定。
②选坐标轴。一般以自变量为横坐标,因变量为纵坐标。用粗实线在坐标纸上描出坐标轴,在轴上注明物理量名称、符号、单位,并按顺序标出标尺整分格上的量值。这些量值一般应是一系列正整数及其10n倍,而不要标注实验点的测量数据。
③选择合适的坐标分度值。坐标分度值的选取应符合测量值的准确度,即应能反映测量值的有效数字位数。一般以1小格(或2小格)对应于测量仪表的仪器误差或坐标轴代表的物理量的不确定度。对应比例的选择应便于读数。最小坐标值不必都从零开始,以使作出的图线大体能充满全图,布局美观、合理。
④描点和连线。用铅笔把对应的数据标在图纸上。描点时用+、×、Δ等较明显的符号标出,同一曲线上的点要用同种符号。连线时应尽量使图线紧贴所有的实验点,但不应强求曲线通过每一个实验点而成为折线(仪表的校正曲线不在此例),即使连线成为光滑的曲线且使图线两侧的所有实验点与图线的距离都最为接近且分布大体均匀。曲线正穿过实验点时,可以在点处断开。若将图线延伸到实验数据范围之外,一般依趋势用虚线描出。
⑤写明图线特征。有必要时,可利用图上的空白位置注明实验条件和从图线上得出的某些参数,如截距、斜率、极大值、拐点和渐近线等。
⑥写图名。在图的右上方或正下方或空白处写出图线的名称、比例以及某些必要的说明,要使图线尽可能全面反映实验的情况。
(3)逐差法
为了避免作图法的随意性。希望对组合测量所得的数据规定一个计算程序,以期获得一个较一致的实验结果。
设自变量和因变量之间存在线性关系,自变量等间距变化,则有:
y=a+bx
在n对数据:
x1,x2,x3…,xi,…,xn;y1,y2,…,yi,…yn
中,求b的公式是:
任何两对数据都可以代入上式求出b值,选用数据的原则有如下两点。
①所有的数据都应用上。
②任一数据都不应重复使用。
逐差法规定,把n对数据分成两组,用第2组的一对数据作被减数,用第1组相应的一组数据作减数。例如共10对数据,则将第1~5号数据分作第1组,将第6~10号分作第2组,可求得回归系数:
可得5个b值,最佳值是:
回归常数:
式中,是xi数列的中值(平均值);是yi数列的中值(平均值)。
(4)最小二乘法(实验数据的直线拟合)
作图法虽然在数据处理中是一个很便利的方法,但在图线的绘制上往往会引入附加误差,尤其是在根据图线确定常数时,这种误差有时很明显。为了克服这一缺点,人们在数理统计中研究了直线拟合问题(或称为一元线性回归问题),常用一种以最小二乘法为基础的实验数据处理方法。由于某些曲线可以通过数学变换改写为直线,例如对指数型函数Y=ae-bx取对数得lny=lna-bx,这样lny与x的函数就变成了直线型了,因此,这一方法也适用于某些曲线型的规律。
设某一实验中,测得一组数据xi;yi(i=1,2,…,n)。我们假定每个测量值都是等精度的,且对xi值的测量误差很小,而主要误差都出现在yi的测量上。从上述(xi;yi)中任取两组实验数据就可得出一条满足y=a0+b0x的直线,那么这条直线的误差可能很大。直线拟合的任务是从这些数据中求出一个误差最小的最佳经验式y=a+bx。按这一最佳经验公式作出的图线虽不一定能通过每一个实验点,但是它以最接近这些点的方式平滑地穿过它们。显然,对应于每一个xi值,观测值yi和最佳经验式的y值之间存在一偏差δyi,称之为观测值yi的偏差。即:
δyi=yi-y=yi-(a+bx) (i=1,2,3,…,n)
最小二乘法的原理是:如果各观测值yi的误差互相独立且服从同一正态分布,当yi的偏差的平方和为最小时,得到最佳经验式。根据这一原理可求出a和b。
设S表示δyi的平方和,它应满足:
S=∑(δyi)2=∑[yi-(a+bxi)]2=min
上式中的各yi和xi是测量值,都是已知量,而a和b是待求量,因此S实际上是a和b的函数。令S对a和b的偏导数为零,即可解出满足上式的a和b值。
即:
如令:
将得出的a和b代入直线方程,即得到最佳的经验公式y=a+bx。
用这种方法计算的常数值a和b是“最佳的”,但并不是没有误差的,它们的误差估计比较复杂。一般来说,一列测量值的δyi大,那么由这一列数据求出的a、b的误差也大,由此定出的经验公式可靠程度就低;如果一列测量值的δyi小,那么由这一列数据求出的a、b值的误差就小,由此定出的经验公式可靠程度就高。
由最小二乘法求出的经验公式是否恰当,还要考虑相关系数。相关系数定义为:
这里|r|≤1。当x和y为互相独立的变量时,Δxi=xi-x和Δyi=yi-y的取值和符号彼此无关,因此∑ΔyiΔxi=0,即r=0。若x和y并不互相独立,而是有线性关系,则r>0,r=1表示完全线性相关。即从相关系数可以判断实验数据是否符合线性。实验中若r达到0.99,就表示实验数据的线性关系良好,各实验点聚集在一条直线附近。反之,r很小,说明实验数据很分散,x与y无线性关系。用直线拟合法处理数据时一定要计算相关系数。
【练习题】
(1)指出下列各数是几位有效数字。
(A)0.002
(B)0.020
(C)2.000
(D)123.4560
(E)3.256
(2)改正下列错误,写出正确答案。
(A)R=(5.236±0.4)cm
(B)f=(21960±125)kg
(C)d=(25.328±0.246)cm
(D)y=(14.5×103±400)cm
(3)下列计算结果从有效数字的运算来看正确的为
(A)45.3-2.314=42.986
(B)0.66×300.0=198.0
(C)(0.8501)1/2=0.9220
(D)78.0+1.234=79.2
(4)利用单摆测重力加速度g时,当摆角很小时有的关系。已知它们的测量结果分别为l=(97.69±0.03)cm,T=(1.9842±0.0005)s,求重力加速度及其不确定度。
(5)用量程为5mA、准确度等级为0.5级的电流表测量某恒流源输出电流I,电表表盘共有30个分格,当指针恰好指向第15分格线上时,测量结果为多少?
(6)试推导圆柱体体积的不确定度合成公式uV/V。
(7)一长方形,其长宽分别为a、b,用最小分度值Δ仪=0.02mm的游标卡尺测a四次其值为a1=10.26mm;a2=10.24mm;a3=10.24mm;a4=10.26mm,测b四次其值为b1=15.28mm;b2=15.26mm,b3=15.28mm;b4=15.26mm,求长方形S的结果表达式。
【参考文献】
崔玉广,隋成玉.大学物理实验.大连:大连理工大学出版社,2010.