2.3 连续型随机变量及概率分布
2.3.1 连续型随机变量的概率密度函数和累积分布函数
在例2.4中,瓶装饮料的容量是一个连续型随机变量。样本数为100,频数区间间隔为2毫升,图2.14是根据抽样统计的频数计算的概率和累积概率图。
图2.14 样本数为100的饮料容量概率和累积概率
如果样本数增加到1000,频数区间间隔缩小为1毫升,根据抽样统计的频数计算的概率和累积概率如图2.15所示。
图2.15 样本数为1000的饮料容量概率和累积概率
当抽样的样本数无限增加、频数区间间隔无限缩小时,概率和累积概率的图形就逐渐演变成连续曲线。图2.16是样本数为10000、频数区间间隔为0.5毫升的概率和累积概率图形。
图2.16 概率密度函数和累积概率分布函数
将饮料的容量记为随机变量X,概率曲线记为f(x),即随机变量X的概率密度函数,简称密度函数;累积概率曲线记为F(x),即随机变量X的累积概率分布函数,简称分布函数。
定义2.3 设一个连续型随机变量X的取值范围为[a, b],概率密度函数为f(x),累积概率分布函数为F(x)。则它们具有以下的性质:
(1)随机变量X落在区间[x1, x2](a≤x1<x2≤b)中的概率为:
即随机变量X落在区间[x1, x2]中的概率等于密度函数f(x)曲线下位于x1和x2之间的面积,如图2.17所示。
图2.17 连续型随机变量概率的图示之一
(2)密度函数在随机变量所有取值范围内的积分等于1。
即密度函数f(x)曲线和x轴围成的全部面积等于1,如图2.18所示。
图2.18 连续型随机变量概率的图示之二
(3)累积概率分布函数F(x)是随机变量X小于或等于数值x的概率,即累积概率分布函数F(x)是概率密度函数f(x)的积分。
即累积概率分布函数F(x)的值等于概率密度函数f(x)曲线下从a到x的面积,如图2.19所示。
图2.19 连续型随机变量概率的图示之三
(4)根据以上两条性质,可以推出:
即随机变量X落在区间[x1, x2]内的概率,等于密度函数f(x)曲线下从a到x2的面积和从a到x1的面积之差,如图2.20所示。
图2.20 连续型随机变量概率的图示之四
(5)累积概率分布函数还有以下性质:
2.3.2 正态分布
正态分布是最重要的连续型随机变量的分布。许多连续型随机变量都服从正态分布。例如,射击比赛的环数、机械加工零件的尺寸的公差等都服从正态分布。
正态分布的密度函数表达式为:
式中,μ为正态分布的均值,σ为标准差。
正态分布的累积分布函数为:
累积分布函数F(x)的意义是正态分布的随机变量X小于或等于数值x的概率。正态分布的累积分布函数无法用解析式表达。
图2.21是μ=10, σ=2的正态分布密度函数的图形。
图2.21 正态分布密度函数图形
从图2.21可以看出,正态分布的密度函数图形是以均值为对称轴、向两侧无限延伸的“钟形”。图2.22是标准差σ等于2不变,均值μ分别等于8、10和12的正态分布密度函数图形。
图2.22 标准差相同、均值不同的正态分布密度函数图形
从图2.22可以看出,均值的变化使密度函数左右移动。图2.23是均值等于10不变,标准差分别等于1、2、3的正态分布密度函数图形。
图2.23 均值相同、标准差不同的正态分布密度函数图形
从图2.23可以看出,标准差越小,密度函数的图形越尖窄;标准差越大,密度函数的图形越扁平。
μ=0, σ=1的正态分布称为标准正态分布。图2.24是标准正态分布的概率密度函数和累积分布函数的图形。
图2.24 标准正态分布密度函数和累积分布函数图形
由于正态分布的重要性,几乎所有的概率论和统计的教科书的附录中都有正态分布表。本书的附录1和附录2分别是标准正态分布表和累积标准正态分布表。表2.7是标准正态分布表(局部),我们来说明如何应用标准正态分布表。
表2.7 标准正态分布表(局部)
表2.7中的数值是标准正态分布曲线下从0到z的面积,如图2.25阴影部分所示,即标准正态分布随机变量X落在区间[0, z]的概率P(0≤X≤z)。对于一般的标准正态分布表,z的值从0到3.99。
图2.25 标准正态分布表图示之一
例如,查表得到z(1.54)=0.4382,表示P(0≤X≤1.54)=0.4382,即标准正态分布密度函数曲线下从0到1.54的面积为0.4382,如图2.26所示。
图2.26 标准正态分布表图示之二
如果要计算标准正态分布随机变量落在[1.25,1.54]中的概率,则需计算标准正态分布曲线下从0到1.54的面积,然后减去从0到1.25的面积,即P(1.25≤X≤1.54)=z(1.54)-z(1.25)=0.4382-0.3944=0.0438,如图2.27阴影部分所示。
图2.27 标准正态分布表图示之三
如果要计算标准正态分布随机变量落在[ -1.25,1.54]中的概率,则需计算标准正态分布曲线下从-1.25到0的面积,然后加上从0到1.54的面积。由于标准正态分布曲线是以纵坐标为对称轴的,所以从-1.25到0的面积等于从0到1.25的面积,即P(-1.25≤X≤1.54)=z(1.25)+z(1.54)=0.3944+0.4382=0.8326,如图2.28阴影部分所示。
图2.28 标准正态分布表图示之四
同样道理,标准正态分布随机变量落在[ -1.54, -1.25]中的概率,即P(-1.54≤X≤-1.25)=z(1.54)-z(1.25)=0.4382-0.3944=0.0438,如图2.29阴影部分所示。
图2.29 标准正态分布图示之五
对于均值为μ,标准差为σ的一般正态分布随机变量x,可以用以下公式:
转换成标准正态分布随机变量z,再用正态分布表计算相应的概率。
例2.11 瓶装饮料产品中饮料的容量服从均值μ=250毫升,标准差σ=5毫升的正态分布。求:
(1)饮料容量小于或等于260毫升的概率。
(2)饮料容量在245毫升到260毫升之间的概率。
解:(1)用公式(2.16)计算,{L-End} ,即260毫升相当于正态分布的2.0。查标准正态分布表,得到z(2.0)=0.4772。加上标准正态分布左半侧的面积为0.5,因此饮料容量小于260毫升的概率P(X≤260)=0.5+0.4772=0.9772,计算过程的图解见图2.30。
图2.30 饮料容量小于260毫升概率的图解
(2)用公式(2.16)计算,{L-End} ,即245毫升相当于标准正态分布的1.0。由正态分布图的对称性可知,从-1.0到0的面积等于从0到1.0的面积。查标准正态分布表,得到z(1.0)=0.3413。由图2.31可知,饮料容量在245毫升到260毫升之间的概率P(245≤X≤260)=0.3413 +0.4772=0.8185。
图2.31 饮料容量在245毫升到260毫升之间概率的图解
Excel有以下两个计算正态分布概率的函数:
■ NORMDIST(x, mean, stand_dev, cumulative)
该函数有四个参数,分别是随机变量值(x)、均值(mean)、标准差(stand_dev)和是否累积(cumulative)。当cumulative取值为“FALSE”(或0)时,计算密度函数值;当cumulative取值为“TRUE”(或1)时,计算累积概率值。
■ NORMSDIST(x)
该函数只有一个参数,即随机变量值x,它计算标准正态分布随机变量的累积概率值。
例2.12 利用Excel函数计算饮料容量小于或等于260毫升的概率以及饮料容量在245毫升到260毫升之间的概率。
计算过程及结果如图2.32所示。
图2.32 正态分布概率的计算
2.3.3 负指数分布
负指数分布也是一种重要的连续型随机变量的概率分布。负指数分布的概率密度函数是:
它的累积分布函数表达式是:
分布函数F(x)表示随机变量X小于或等于某一个值x的概率。
负指数分布的均值μ=1/λ,方差σ2=(1/λ)2。图2.33是μ=1的负指数分布密度函数和累积分布函数的图形。
图2.33 负指数分布图形
负指数分布具有以下重要的性质:
(1)许多元器件的寿命(即无故障运行时间或到第一次出现故障前的时间)服从负指数分布。在本书2.4.3节中我们将说明,运行寿命服从负指数分布的器件发生故障的概率和已经正常运行的时间无关。
也就是说,寿命服从负指数分布的器件,刚开始运行(即新的器件)的1000小时内不发生故障的概率,和这种器件无故障运行了1万小时以后的1000小时内不发生故障的概率是相等的。
人的寿命显然不服从负指数分布。众所周知,一个20岁的人还能继续活10年的概率,显然比一个70岁的人还能继续活10年的概率大。
经验表明,一些运行有损耗的产品和器件,如汽车发动机、制冷压缩机、白炽灯等,它们发生故障的概率和已运行的时间有关。而一些非运行损耗的器件,特别是电子器件,如计算机芯片、半导体存储器等,发生故障往往只和外部的偶然因素如撞击、电压冲击等有关,而和器件本身已经实现的无故障运行时间无关。我们把器件的这种寿命特性称为“永远年轻”的特性。
事实上,日常生活中的许多物品,如玻璃器皿、瓷器等,它们的寿命(即从开始使用到被打碎的时间)确实和已使用的时间无关。
(2)负指数分布和泊松分布有密切的关系。通过概率论可以证明,如果离散的随机事件发生的次数(如每小时到达银行的顾客数)服从参数为λ的泊松分布,那么,相邻的两个离散随机事件(如相邻两个顾客到达)之间的时间间隔服从相同参数λ的负指数分布。负指数分布的这一特性,我们将在本书9.5节中用到。
例2.13 设某一种电子元器件的寿命(无故障运行时间)服从负指数分布。据大量实际数据测定,这种元器件的平均无故障运行时间为1000小时。试回答以下问题:
(1)第一次故障发生在1200小时之前的概率。
(2)第一次故障发生在800小时之前的概率。
(3)第一次故障发生在200小时之前的概率。
解:均值1/λ=1000, λ=1/1000; t=1200小时、800小时、200小时;x为随机变量,表示发生故障的时间。
(1)第一次故障发生在1200小时之前的概率为:
P(x≤1200)=F(1200)=1-e-0.001×1200=1-e-1.2=1-0.3012 =0.6988
(2)第一次故障发生在800小时之前的概率为:
P(x≤800)=F(800)=1-e-0.001×800=1-e-0.8=1-0.4493 =0.5507
(3)第一次故障发生在200小时之前的概率为:
P(x≤200)=F(200)=1-e-0.001×200=1-e-0.2=1-0.8187 =0.1813
Excel计算负指数分布的函数是:
■ EXPONDIST(x, lambda, cumulative)
其中,x是随机变量的值,lambda是参数λ的值,cumulative=“TRUE”,函数计算累积分布函数值,cumulative=“FALSE”,函数计算概率密度函数值。
例2.14 用Excel函数EXPONDIST计算例2.13的三个概率。
解:(1)第一次故障发生在1200小时之前的概率为:
EXPONDIST(1200,1/1000, TRUE)=0.6988
(2)第一次故障发生在800小时之前的概率为:
EXPONDIST(800,1/1000, TRUE)=0.5507
(3)第一次故障发生在200小时之前的概率为:
EXPONDIST(800,1/1000, TRUE)=0.1813
2.3.4 均匀分布
如果连续型随机变量落在某一个区间内的概率相等,则称这个随机变量服从均匀分布。服从均匀分布的随机变量的密度函数是定义在一个区间[a, b]上的一个常数c(c>0)。根据密度函数曲线下的面积等于1,可以得到{L-End} 。图2.34为均匀分布的密度函数f(x)和累积分布函数F(x)的图形。
图2.34 均匀分布的密度函数和累积分布函数
均匀分布随机变量的密度函数和累积分布函数为:
均匀分布的均值为{L-End} ,方差为{L-End} 。
Excel产生均匀分布随机变量的函数为RAND()。函数括号中不需要填写任何数据或字符。函数RANG()产生0—1之间的均匀分布的随机变量,不包括0和1。
如果需要产生其他区间中的随机变量,可以用包含这个函数的相应表达式进行区间的变换。例如,表达式10*RAND()产生0—10之间的均匀分布的随机变量,表达式5*RAND()+2产生2—7之间的均匀分布的随机变量,等等。
2.3.5 三角分布
三角分布有三个参数,即最小值a、最大值b和最可能值c。三角分布的密度函数为:
累积分布函数为:
图2.35为三角分布的密度函数和累积分布函数的图形。
图2.35 三角分布的密度函数和累积分布函数
三角分布的均值为{L-End} ,方差为{L-End} 。
三角分布常用于描述这样一些随机变量:决策者对这些随机变量有一定的经验,随机变量的最小值、最大值和最可能值比较容易估计。例如,项目管理中工序完工时间的估计、商品的销售量估计等。
2.3.6 随机变量的其他分布
Excel还提供了其他一些随机变量的概率分布函数,现介绍如下:
■ BETADIST(x, alpha, beta, A, B)——β分布
x 连续型随机变量数值。
alpha 分布参数。
beta 分布参数。
A 数值x所属区间的下界。
B 数值x所属区间的上界。
■ CHIDIST(x, degrees_freedom)——χ2分布
x 连续型随机变量数值。
degrees_freedom 自由度。
■ FDIST(x, degrees_freedom1, degrees_freedom2)——F分布
x 连续型随机变量数值。
degrees_freedom1 分子自由度。
degrees_freedom2 分母自由度。
■ GAMMADIST(x, alpha, beta, cumulative)——伽玛分布
x 连续型随机变量数值。
alpha 分布参数。
beta 分布参数。如果beta=1,函数返回标准伽玛分布。
cumulative 逻辑值。如果cumulative取值为“TRUE”,函数返回累积分布函数;如果cumulative取值为“FALSE”,则函数返回概率密度函数。
■ HYPGEOMDIST(sample_s, number_sample, population_s, number_population)——超几何分布
sample_s 样本中成功的次数。离散型随机变量数值,取非负整数。
number_sample 样本容量。
population_s 样本总体中成功的次数。
number_population 样本总体的容量。
■ LOGNORMDIST(x, mean, standard_dev)——对数正态分布
x 连续型随机变量数值。
mean ln(x)的平均值。
standard_dev ln(x)的标准差。
■ NEGBINOMDIST(number_f, number_s, probability_s)——负二项分布
number_f 失败次数。离散型随机变量数值,取非负整数。
number_s 成功的极限次数。
probability_s 成功的概率。
■ WEIBULL(x, alpha, beta, cumulative)——威布尔分布
x 连续型随机变量数值。
alpha 分布参数。
beta 分布参数。
cumulative 逻辑值。如果cumulative取值为“TRUE”,函数返回累积分布函数;如果cumulative取值为“FALSE”,则函数返回概率密度函数。