2.2 离散型随机变量及概率分布
2.2.1 离散型随机变量的概率和累积概率
例2.1—例2.3描述了三个离散型随机变量的频数。其中,例2.1中两颗骰子的点数之和的频数是理论频数。实际投掷两颗骰子得到的点数之和的实际频数并不完全等于理论频数。事实上,投掷的次数即样本数N越大,实际频数就越接近理论频数。其他两个例子中的离散型随机变量的频数也是这样。于是,我们有以下定义:
定义2.1 当样本数无限增大时,离散型随机变量的相对频数称为离散型随机变量的概率。
我们将离散型随机变量X等于某一个数值xi的概率记为P(X=xi),则以上定义可以写成:
由以上定义可知,当样本数足够大时,离散型随机变量的相对频数就非常接近随机变量的概率。
定义2.2 离散型随机变量X小于或等于某一个数值xi的概率称为随机变量的累积概率,记为F(x)。其表达式为:
例2.1中两颗骰子的点数之和分别等于2,3,4, …,11,12的理论频数即这个随机变量的概率可以通过理论推算出来,但我们并不知道例2.2中每小时到达银行的顾客人数的概率,以及例2.3中天气分别为晴天、多云、阴天和下雨的概率。对于很多离散型随机变量而言,它们的概率分布需要在理论研究和大量数据分析的基础上,才能得知取各种可能值的概率服从何种分布。
例如,在一定的假设前提下,通过理论分析可以推导出,在单位时间内有k名顾客到达银行这一事件发生的概率为:
式中,λ为单位时间内到达银行的顾客人数的均值。
如果一个离散型随机变量X的值等于整数k(k=0,1,2,3, …)的概率由公式(2.6)表示,则称这个随机变量服从泊松(Poisson)分布。
根据公式(2.6),计算一个均值λ=12(人/小时)的泊松分布随机变量X的概率P(X=k), k从0到44的概率如表2.6所示。
表2.6 服从泊松分布的顾客到达人数的概率
图2.5为服从泊松分布的顾客到达人数的概率柱形图。可以看出,它的形状和图2.2中的相对频数图非常相似。
图2.5 顾客到达人数(λ=12)的泊松分布概率
关于离散型随机变量的泊松分布,在2.2.4节还要详细讨论。
2.2.2 贝努利分布
如果一个随机变量只有两种结果,而且这两种结果发生的概率是不变的,则称这个随机变量服从贝努利分布。例如,随机变量x是风险投资的结果,它只有成功(x=1)和失败(x=0)两种可能,则x的概率分布为:
式中,0≤p≤1表示投资成功的概率。
例2.5 原告向法院提出一项诉讼请求。原告的律师认为,原告的这项诉讼胜诉的概率为0.75,败诉的概率为0.25。如果我们用随机变量x表示诉讼结果,则x的概率分布为:
例2.6 一项风险投资,结果只有成功和失败两种可能。成功的概率为0.3,失败的概率为0.7。如果我们用随机变量x表示风险投资的结果,那么,x=1表示投资成功,x=0表示投资失败。于是,x的概率分布为:
2.2.3 二项分布
前面介绍风险投资时,假设投资是一次性的,成功的概率为p,失败的概率为1-p。假如投资不是进行一次而是进行n次(n为一个有限的整数),那么,这n次风险投资中有x次(x≤n, x为整数)成功,有n-x次失败的概率为:
式中,{L-End} 表示从n个对象中选取x(0≤x≤n)个不同对象的组合数。组合数的计算公式为:
二项分布有三个参数,分别是成功次数(x)、总数(n)和成功的概率(p),因此二项分布可以简记为B(x, n, p)。
例2.7 单发子弹命中目标的概率为0.8。发射5发子弹,其中x(0≤x≤5)发命中目标的概率为:
如果x=2,则5发子弹2发命中目标的概率为:
例2.8 一件产品的不合格率为0.03。抽检100件产品,其中x(0≤x≤100)件不合格的概率为:
抽检的100件产品中有5件不合格的概率为:
用手工计算这个数字有一定困难,我们可以用Excel中的二项分布函数进行计算。介绍如下:
■ BINOMDIST(number_s, trials, probability_s, cumulative)
number_s表示试验成功的次数。
trials表示独立试验的次数。
probability_s表示每次试验中成功的概率。
cumulative表示某个逻辑值,用于确定函数的形式。如果cumulative为TRUE,函数BINOMDIST返回累积分布函数,即至多number_s次成功的概率;如果cumulative为FALSE,返回概率密度函数,即number_s次成功的概率。
对于上面的例子,用Excel函数计算如下:
BINOMDIST(5,100,0.03, FALSE)=0.1013
即抽检100件产品,其中恰有5件不合格的概率约为0.10。
服从二项分布的随机变量的均值为np,方差为np(1-p),标准差为{L-End} 。这一结果在3.4.2节比例置信区间中要用到。
2.2.4 泊松分布
在2.2.1节中,我们指出每小时到达银行的顾客人数服从泊松分布。为了直观起见,我们还是以每小时到达的顾客人数为例。假定到达顾客的人数具备以下特性:
(1)单位时间内到达的顾客人数的均值与时间无关。这个特性称为随机变量的平稳性。
(2)任何两个到达的顾客之间都是相互独立的,即没有两个或两个以上的顾客是有预约地一起到达的,即使有,也是极个别的。这个特性称为普通性。
(3)前面到达的顾客人数的多少,不会影响后面到达的顾客人数。这个特性称为无后效性。
(4)所有可能的时段内到达的顾客总数是有限的。这个特性称为有限性。
根据这些假设条件,通过数学推导,可以得出有k个顾客到达的概率为:
式中,λ为单位时间到达的顾客数量的均值。
泊松分布是一种很常见的离散型随机变量的分布。除了2.2.1节提到的银行顾客到达的数量以外,高速公路收费站车辆到达的数量、流水线上出现不合格品的数量、文字输入中每页出现错别字的个数、消防队每个月接到的火警数量、投诉接待中心每周接到的投诉次数、家用电器维修中心每天接到的报修故障电器次数、手机每天收到的短信数量等随机变量,都符合以上四个条件,因而它们都服从泊松分布。
泊松分布只有一个参数λ。服从泊松分布的随机变量的均值为λ,方差也等于λ。
图2.6为λ=6和λ=15的服从泊松分布随机变量的概率分布图。
图2.6 泊松分布的概率
泊松分布随机变量的概率分布是左偏的,即峰在左,拖尾在右,偏度系数小于零。λ越小,越向左偏;λ变大,逐渐转向对称。当λ足够大时,例如λ>15,泊松分布的图形基本上是对称的。
Excel计算泊松分布的函数为:
■ POISSON(x, mean, cumulative)
其中,参数x是随机变量的取值;mean是均值,即λ; cumulative是一个逻辑变量,值为“TRUE”表示该函数计算累积概率值,值为“FALSE”表示计算概率值。
例2.9 用POISSON函数计算λ=12的泊松分布概率值和累积概率值。计算过程和结果如图2.7、图2.8所示。
图2.7 Excel计算泊松概率和累积概率的工作表(局部)
图2.8 λ=6的泊松分布的概率值和累积概率值
服从泊松分布的离散型随机变量和服从负指数分布的连续型随机变量之间有密切的关系。这一点将在介绍负指数分布时详细讨论。
有了泊松概率分布函数和累积概率分布函数,就可以计算一些服从泊松分布的随机变量出现的概率。
例2.10 假设到达一个高速公路收费站的汽车数量是服从泊松分布的随机变量。到达汽车的平均流量为120辆/小时,即平均每分钟到达2辆车。求以下随机事件发生的概率。
(1)1分钟内没有车辆到达。
(2)1分钟内到达5辆。
(3)1分钟内到达3辆及3辆以下。
(4)1分钟内到达3辆以上(不含3辆)。
解:λ=2辆/分钟,单位时间为1分钟。
问题(1)和(2)分别计算k=0和k=5的泊松分布概率,问题(3)计算k≤3的累积概率,问题(4)计算k>3的累积概率。利用Excel中POISSON函数,得到:
(1)1分钟内没有车辆到达的概率为:
P(k=0)=POISSON(0,2, FALSE)=0.135
(2)1分钟内到达5辆的概率为:
P(k=5)=POISSON(5,2, FALSE)=0.036
(3)1分钟内到达3辆及3辆以下的概率为:
P(k≤3)=POISSON(3,2, TRUE)=0.857
(4)1分钟内到达3辆以上(不含3辆)的概率为:
P(k>3)=1-P(k≤3)=1-POISSON(3,2, TRUE)=0.143
图2.9—图2.12为以上四个问题的泊松分布概率图。
图2.9 没有车辆到达的概率
图2.10 到达5辆的概率
图2.11 到达3辆及3辆以下的概率
图2.12 到达3辆以上(不含3辆)的概率
图2.13介绍了用Excel函数计算泊松分布随机变量概率的过程。
图2.13 泊松分布随机变量概率的计算