2.4 联合分布、边际分布和条件概率
2.4.1 联合分布和边际分布
以上讨论的随机变量的分布只和一个变量有关,如到达银行的顾客的概率只和人数有关、元器件发生故障的概率只和运行时间有关。这样的随机变量分布称为一维概率分布。而另一些随机变量的分布和两个或两个以上的变量有关,这样的随机变量分布称为二维或多维概率分布。
例2.15 假定某种疾病A的发病人数和两个因素有关:患者的年龄和化验指标。1898位该疾病的患者的分类统计结果如表2.8所示。
我们用变量x表示患者的年龄,6个年龄段分别用变量x1, x2, …, x6表示;变量y表示化验指标,5个指标段分别用变量y1, y2, …, y5表示。那么,患者人数这个随机变量就是年龄x和化验指标y两个自变量的二维概率分布随机变量。
表2.8 疾病A患者年龄和化验指标的二维频数分布
表2.8中右下角的数值表示两个变量x(年龄)和y(化验指标)取不同值时,患者出现的频数F(x, y),这个频数称为变量x和y的联合频数。例如,当x=x4和y=y5时,即年龄的取值范围为45—54岁、化验指标的取值范围为8.0—9.9时,患者的联合频数为F(x5, y4)=215。
表2.8的第三列表示对所有的化验指标(y),某一年龄段(x)患者出现的频数,称为变量x的边际频数,记为F(x)。表2.8的第三行表示对所有的年龄段(x),化验指标(y)在某一指标段内的患者出现的频数,称为变量y的边际频数,记为F(y)。例如,F(x4)=484就是随机变量x为45—54岁的边际频数。同样,F(y5)=926就是随机变量x为8.0—9.9的边际频数。
由表2.8可以看出,边际频数F(x)或F(y)和联合频数F(x, y)的关系如下:
以表2.8为例,化验指标为8.0—9.9的边际频数为926人,等于各年龄段化验指标为8.0—9.9的频数之和,即926=52+84+139+215 +289 +147。同样,年龄为45—54岁的边际频数为484人,等于年龄为45—54岁不同化验指标的频数之和,即484 =8 +35 +89 +137+215。
将表2.8中的患者人数除以患者总人数N=1898,得到表2.9,表示这种疾病的患者在不同年龄段和不同化验指标段的概率。
表2.9 疾病A患者年龄和化验指标的联合概率和边际概率
表2.9右下角区域的数值称为变量x和y的联合概率,记为f(x, y)。第三列的数值称为变量x的边际概率,记为f(x);第三行的数值称为变量y的边际概率,记为f(y)。
如果离散型随机变量x和y的联合概率为f(x, y),则变量x和y的边际概率为:
对于连续型随机变量x和y,若联合概率为f(x, y),则变量x和y的边际概率分别为:
2.4.2 互相独立的随机变量
从表2.9可以看出,对于疾病A不同年龄段的患者,各化验指标的人数的比例是不相同的。也就是说,随机变量x的概率和随机变量y的取值有关。
例如,18—24岁的患者化验指标在6.0—7.9的概率为0.011,25—34岁的患者化验指标在同一范围内的概率为0.033,两者的比例是0.011/0.033=0.3333。同样的道理,这两个年龄段化验指标在8.0—9.9的概率之比为0.027/0.044 =0.6136。这就表明,随机变量y在8.0—9.9的概率与另一随机变量x有关。
为了观察疾病A不同年龄段各化验指标的人数比例,对表2.8的每一行计算各年龄段患者的相对频数,得到表2.10。
表2.10 疾病A各年龄段患者人数的相对频数
表2.10清楚地显示,不同年龄段各化验指标患者人数的比例是不相同的,即变量y取各种可能值的概率与变量x的取值有关,由此引出两个随机变量是否独立的定义。
定义2.4 在二维随机变量中,如果一个随机变量取各种可能值的概率,与另一随机变量的取值无关,则称两个随机变量为互相独立的。如果一个随机变量取各种可能值的概率,与另一随机变量的取值有关,则称两个随机变量是不独立的。
根据定义2.4,表2.8中的随机变量x和随机变量y是不独立的。
例2.16 假设有另一种疾病B的10000名患者,他们的年龄段人数和化验指标人数的联合频数分布如表2.11所示。
表2.11 疾病B患者年龄和化验指标的二维频数分布
分别计算表2.11中各行的相对频数和各列的相对频数,即各年龄段人数分别除以该年龄段的总人数、各化验指标人数除以每一化验指标的总人数,得到表2.12和表2.13。
表2.12 疾病B各年龄段患者人数的相对频数
表2.12中每一年龄段(变量x)的相对频数都相等,而且等于化验指标(变量y)的边际概率。
表2.13 疾病B各化验指标患者人数的相对频数
表2.13中每一化验指标(变量y)的相对频数都相等,而且等于化验指标(变量y)的边际概率。
由表2.12和表2.13可知,对于这种疾病的患者而言,每一个年龄段的患者不同化验指标的人数比例都相同,每一组化验指标的不同年龄段的人数比例也相同。也就是说,这种疾病患者的两个变量x(年龄)和y(化验指标)中的任何一个变量的概率分布都不受另一个变量的概率分布的影响。根据定义2.4,这种疾病患者的年龄和化验指标是互相独立的。
将表2.12中各年龄段行分别乘以相应年龄段的边际概率,就得到这种疾病年龄段和化验指标的联合概率分布,如表2.14所示。
表2.14 疾病B患者年龄和化验指标互相独立的二维概率分布
在表2.14中,年龄段(变量x)为45—54岁、化验指标(变量y)为6.0—7.9的患者的联合分布概率f(x, y)=0.0722,由表2.13的计算过程可知,这个联合分布概率等于表2.11中化验指标(变量y)为6.0—7.9的边际概率f(y)=0.283乘以年龄段(变量x)的边际概率f(x)=0.255,即0.0722 =0.2550 ×0.2831。容易验证,表2.14中每一个联合分布概率f(x, y)都等于两个变量x和y相应的边际概率f(x)和f(y)的乘积。
由此可以得到,如果随机变量x和y互相独立,则它们的联合概率等于它们的边际概率的乘积,即:
疾病A的年龄段(变量x)和化验指标(变量y)是互相不独立的,因此表2.9中它们的联合分布概率和边际概率不满足公式(2.28)。
2.4.3 条件概率
定义2.5 条件概率是指在一个随机事件已经发生的情况下,某一随机事件发生的概率。在随机事件y已经发生的条件下,随机事件x发生的条件概率记为f(x|y)。
例如,某位患有疾病A的患者年龄在45—54岁之间,他的化验指标在6.0—7.9之间的概率是多少?由表2.8可知,45—54岁的患者有484人。在这484位患者中,化验指标在6.0—7.9之间的有137人,占484位患者的比例为0.283。由于前提是这位患者的年龄在45—54岁之间,因此他的化验指标在6.0—7.9之间的概率就是0.283,即f(x=x4|y=y4)=0.283。
这个概率也可以用年龄y的边际概率f(y)以及化验指标x和年龄y的联合概率f(x, y)得到。45—54岁的患者占患者总数的比例为年龄y的边际概率f(y4)=0.255。对于患者总人数来说,年龄为45—54岁、化验指标为6.0—7.9的患者占患者总人数的比例为x4和y4的联合概率f(x4, y4)=0.072。相对于45—54岁的患者人数,化验指标为6.0—7.9的患者所占的比例应为{L-End} ,即条件概率{L-End} 。
对于一般情况,条件概率f(x|y)和联合概率f(x, y)以及边际概率f(y)的关系为:
如果随机变量x和y互相独立,随机变量y的取值对随机变量x的概率没有影响,因此条件概率f(x|y)=f(x)。此时,公式(2.29)就变成{L-End} ,即f(x, y)=f(x)f(y)。这就是公式(2.28)。因此,公式(2.29)是公式(2.28)更一般的形式,它既适用于随机变量x和y是独立的情况,也适用于随机变量x和y不独立的情况。
在2.3.3节介绍负指数分布时,我们说过,运行寿命服从负指数分布的器件发生故障的概率和已经正常运行的时间无关。现在用条件概率来说明这一结论。
设某一器件的运行寿命为随机变量X,服从负指数分布。在2.3.3节中,我们知道服从负指数分布的随机变量的密度函数为f(x)=μe -μx,累积分布函数为F(x)=1-e -μx。
该器件在t小时内无故障即寿命大于t这一随机事件的概率为:
P[X >t] =1 -P[X≤t] =1 -F(t)=1-(1-e-μt)=e-μt
根据条件概率的计算公式(2.29),该器件在已经无故障运行了t小时的条件下,再继续无故障运行τ小时的概率为:
即这个条件概率和已经无故障运行的时间t无关,而只和继续运行的时间τ有关。