上QQ阅读APP看书,第一时间看更新
第四节 统计检验与两类错误
一、假设检验
假设检验是在规定的风险水平上确定一组数据(一般是来自样本的数据)是否符合已给定假设的统计方法。或者说,根据样本,决定某个统计假设应该被拒绝或不被拒绝(接受)的方法和步骤。假设可能是关于某一特定统计分布或模型的假定,也可能是关于某一分布的参数值(如均值)。
假设检验的方法包括评价以数据形式存在的证据,从而决定是否应该拒绝关于统计模型或参数的给定假设。
假设检验的用途很广,它可使人们在规定的置信水平判断有关总体参数(根据来自样本的估计)的假设是否正确。因此,假设检验可用于检验总体参数是否符合特定标准,也可用来检验两个或多个总体的差别。
假设检验也可用于模型假定的检验,如检验总体的分布是否正态,样本数据是否随机等。
GB/Z 19027所列的许多统计技术明确或隐含地引用了假设检验,如抽样、SPC图、试验设计、回归分析、测量分析等。假设检验在许多领域,特别是在新的仪器、方法、工艺、标准、药品、试剂等的研制开发中起着重要的作用。
二、统计假设、原假设与备择假设
统计假设(statistical hypothesis)关于一个或多个总体分布的命题,它可以通过样本进行检验。
原假设与备择假设(null hypothesis and alternative hypothesis)
原假设H 0是一个特定的统计假设,对它要作出拒绝或接受的决定。备择假设H 1异于原假设,为原假设被拒绝时可能采用的统计假设。
示例1:关于假设期望μ不小于给定值μ 0的检验问题可表述为:
示例2:关于假设两批产品不合格率相等(但未知)的检验问题可表述为:
示例3:关于假设总体分布为正态分布(参数不确定)的检验问题,备择假设为总体分布不是正态分布的。
三、第一类错误与第二类错误
第一类错误(typeⅠerror)原假设为真而被拒绝,又称弃真。以前亦称作第1类错误。
第一类错误概率(typeⅠerror probability) 犯第一类错误的概率。以前称作Ⅰ类风险。
第二类错误(typeⅡerror) 原假设不真但被接受,又称存伪。以前亦称作第Ⅱ类错误。
第二类错误概率(typeⅡerror probability) 犯第二类错误的概率。以前称作Ⅱ类风险。
显著性水平(significant level)检验的第一类错误概率不可超过的界限α,α一般取较小的数值,如0.10,0.05,0.01等。
下面以图2-6进一步说明第一类错误。图中两条垂线之间所包含的曲线下面积,称为该假设检验的“接受区域”,表示为 。如果样本的均值 落在这个接受区域之内,则该假设予以接受;如果样本均值x落在该区域之外,即两侧α/2的阴影部分(也称拒绝域),则假设被否定。
图2-6 H 0:μ 0的接受区域
由于假设检验是用样本推断总体,样本的抽取又是随机的,所以不可能是绝对正确的,具有犯错误的风险。
若该假设是正确的,但由于抽取样本是随机的,有可能得到一个样本的均值落到接受区域之外,则否定了这一正确的假设,这就犯了第一类错误,把本来正确的结果当作不正确的结果而舍弃,也就是以“真”作“假”的错误。
可以用一个比喻来说明这一问题,假如有一筐苹果共100个,有95个是好的,5个是坏的(说明该筐苹果总体是好的),有一买方欲随机抽取3个来判断其质量,由于是随机抽样,有可能抽到3个其中2个是坏的,若以此就判断该筐苹果总体是坏的,这就犯了第一类错误,也叫“弃真”的错误。也有人把它称作生产方或卖方风险,犯这类错误的概率一般以α来表示,α一般取0.10,0.05,0.01等。
下面以图2-7来说明第二类错误的问题。图2-7中μ 0是正确的,μ 1是不正确的,但由于假设检验是以样本推断总体,抽样又是随机的,所以从μ 1这一不正确的总体中,有可能抽取到样本的均值 落到μ 0的接受区域之中,即落到β的阴影部分,而被接受下来。这就犯了第二类错误,即把不正确的结果当作正确的结果接受,犯了以“假”作“真”的错误。
图2-7 第二类错误的概率β
在此仍以苹果为例来说明这一问题。假如上例中的苹果95个是坏的,仅有5个是好的(即总体是坏的)。买方随机抽取3个进行验收,有可能抽到3个其中2个是好的。则以此来判断该筐苹果是好的,这就是把不正确的结果当作正确的结果接受,所以也叫“纳伪”的错误,还有人把它称作使用方或买方风险,犯这类错误的概率以β来表示,β一般取0.10、0.05等。
总之,统计检验不可能没有犯错误的风险。减少α(提高置信概率),会增大犯β错误的概率;增加α则犯第一类错误的危险性也就增大了。不论犯哪一类错误,都会因判断失误而造成损失。
一种合适的统计检验标准,应该是一种能保证α和β都比较小的标准,但在样本容量固定时,要同时使α和β都很小是不可能的,只有增大样本的容量,犯错误的概率才会减小。
四、检验的功效、功效函数和功效曲线
检验的功效(power of a test)当原假设不真时,拒绝原假设的概率。即指不犯第二类错误的概率,它等于1-β,是当原假设不正确时被拒绝的概率。功效不小于显著性水平的检验,称为无偏检验。
功效函数(power function)总体参数的函数,它是当该参数为真时拒绝原假设的概率。
功效曲线(power curve)功效函数的图形表示。
检验的功效函数和功效曲线表示检验功效的变化与参数值之间关系的函数(曲线),称为功效函数(曲线)。对函数(曲线)中所关心的部分常常只是对应于使备择假设成立的那些参数值。此时函数(曲线)表示对于不同的参数值,备择假设被接受的概率。
示例1:图2-8表示检验假设 H 0(μ≥μ 0)H 1(μ<μ 0)的功效曲线。
示例2:图2-9表示对假设 H 0:p<p 0H 1:p≥p 0的一个检验功效作为p的函数曲线。
五、小概率事件、小概率原则
根据大数定律,在大量重复试验中事件出现的频率接近于它们的概率。倘若某事件A出现的概率α很小,则它在大量重复试验中出现的频率也应该很小。例如,若α= 0.001,则大体上在1000次实验中A才出现一次。因此,概率很小的事件在一次试验中实际上不大可能出现,在概率论的应用中,称这样的事件为实际不可能事件。
图2-8 功效曲线
图2-9 功效曲线
概率论中的小概率事件的原则是,如果一个事件发生的概率很小,那么,在一次试验中实际上是不可能发生的。如果在某一次试验中,某个小概率事件竟然发生了,那么,就认为这是一种反常现象(一般情况下把概率在0.05以下的事件称为小概率事件)。
在应用概率论和数理统计中,人们总是根据所研究的具体问题规定一个界限α(0<α<1),当一事件的概率P≤0时,就认为该事件是一实际不可能事件,认为这样的事件在一次试验中,是不会出现的,就是所谓的小概率原则。
显然,根据小概率原则所作的判断也可能是错误的。然而错误判断的概率不会大于显著性水平α,α的选择要根据实际情况而定,对于某些重要场合,当事件的出现会产生严重的后果时(如卫星发射、飞机失事、沉船等),α应选的小一些,一般在实验室中大都选取α= 0.05作为显著性水平。
统计检验的基本思想是小概率原则,而后者的理论依据是大数定律。