第2章 概率论和统计学基础
2.1 随机事件、随机变量和频数
2.1.1 随机事件和随机变量
事件分为确定性事件和随机事件。
一定会发生的事件称为确定性事件。例如,日出日落、月盈月亏、第29届奥林匹克运动会将于2008年8月8日在北京举行等都是确定性事件。
未来发生与否、发生的数量或性质不确定的事件称为随机事件。例如,掷骰子出现的点数、未来的天气状况、未来股票的价格等都是随机事件。
用来表示随机事件各种可能结果的变量称为随机变量,每个随机变量都有一定的取值范围。例如:
■ 投掷两颗骰子A和B,每颗都可能出现1—6的点数。设S为两颗骰子出现的点数之和,那么,S就是一个随机变量,它的取值是2—12的整数。
■ 一家银行的营业部记录了从4月1日到4月30日每天营业的8小时中,每小时来到营业部办理业务的顾客人数C是一个随机变量,它的取值范围为0,1,2, …这个随机变量的取值理论上没有上限。
■ 明天的天气有晴天、多云、阴天和下雨四种可能。用变量W表示明天的天气,则W就是一个随机变量,它有晴天、多云、阴天和下雨四种可能的取值。
■ 某品牌瓶装饮料的标准容量为250毫升,允许的容量偏差为250 ±10毫升。出厂时每瓶饮料的实际容量V是一个随机变量,容量合格的标准为240≤V≤260。
以上四个随机变量中,第一个随机变量“两颗骰子的点数之和”只能取2,3, …,11,12,称为离散型随机变量。第二个随机变量“银行营业部每小时到达的顾客人数”取值为0,1,2, …也是离散型随机变量。第三个随机变量“明天的天气”取值为晴天、多云、阴天和下雨四种状态,称为属性型随机变量。属性型随机变量一般是离散的。第四个随机变量“饮料产品抽样的容量”可以在250 ±10毫升的范围内连续取值,如248.3毫升、254.6毫升等,称为连续型随机变量。
2.1.2 随机变量的样本数、频数、相对频数和累积相对频数
为了了解随机变量的分布特性,需要记录一定数量的随机变量发生的值。随机变量发生的次数称为样本数。
由于随机变量具有不确定性,因此它每一次发生的值都是不同的。随机变量X等于某一个给定的值(X=xi)或者落在某一个给定区间(a≤X<b)的次数,称为这个随机变量的频数,记为F(X=xi)或者F(a≤X<b)。很明显,随机变量等于所有可能的值或落在所有可能区间内的频数之和,等于样本数。即:
随机变量的频数占样本数的比例,称为相对频数。相对频数记为:
随机变量的所有相对频数之和等于1。即:
作为例子,表1.16中四个随机变量的样本数、频数和相对频数如表2.1所示。
表2.1 四个随机变量的样本数、频数、相对频数和累积相对频数
例2.1 两颗骰子的点数之和
由于两颗骰子的点数之和S可能出现的各种情况是可以事先罗列的,因此可以从理论上计算随机变量S的样本数、随机变量S可能取的值以及随机变量S等于某一个值的频数和相对频数。
两颗骰子可能的组合数为6 ×6=36种,即样本数N=36。设随机变量S=3,即两颗骰子A和B的点数之和为3。这个随机变量的频数F(S =3)=2,即可能出现{A=1, B=2}或{A=2, B=1}两种情况。随机变量S=3的相对频数f(S=3)=F(S=3)/N=2/36=0.056。
对于S=7,即点数之和为7,可能出现{A=6, B=1}、{A=1, B=6}、{A=5, B =2}、{A=2, B=5}、{A=4, B=3}、{A=3, B =4}六种情况,因而频数F(S =7)=6,相对频数f(7)=F(7)/N=6/36=0.167。而S≥10,即点数之和大于等于10的频数F(S≥10)=F(10)+F(11)+F(12)=4+2+1=7,相对频数f(S≥10)=F(S≥10)/N=7/36=0.194。频数、相对频数和累积相对频数如表2.2所示。
表2.2 两颗骰子的点数之和的频数、相对频数和累积相对频数
图2.1是这些数据的频数图。
图2.1 两颗骰子的点数之和的频数、相对频数和累积相对频数
例2.2 银行营业部每小时到达的顾客人数
表2.3统计了银行营业部4月1日—30日每天9:00—17:00每小时到达的顾客人数,一共有8 ×30=240个样本。每小时到达的顾客人数的频数、相对频数和累积相对频数如表2.3所示。
表2.3 银行营业部每小时到达的顾客人数的频数、相对频数和累积相对频数
图2.2是这些数据的频数图。
图2.2 银行营业部每小时到达的顾客人数的频数、相对频数和累积相对频数
例2.3 天气
根据50年的气象资料,5月1日天气为晴天、多云、阴天和下雨的天数分别为13天、18天、11天、8天。因此,随机变量W的样本数N=50,频数、相对频数和累积相对频数如表2.4所示。
表2.4 天气的频数、相对频数和累积相对频数
图2.3是这些数据的频数图。
图2.3 天气的频数、相对频数和累积相对频数
例2.4 饮料产品抽样的容量
根据饮料产品抽样的结果,100个饮料样品的容量频数、相对频数和累积相对频数如表2.5所示。
表2.5 饮料产品抽样的容量的频数、相对频数和累积相对频数
根据100个样品的容量落在各个区间的次数,可以计算出该产品容量在所有21个区间范围内的频数和相对频数。在100个样品中,落在250 ±10毫升范围内的相对频数为0.96,即瓶装饮料容量的抽样合格率为0.96。
图2.4 饮料产品抽样的容量的频数、相对频数和累积相对频数
在以上四个例子中,两颗骰子的点数之和的频数是通过理论计算得到的,银行每小时到达的顾客人数的频数、出现各种天气的频数以及饮料不同的容量的频数都是通过实际的数据计算得到的。事实上,银行营业部每小时到达的顾客人数的统计时间长短、气象资料记录的时间长短、饮料抽样数量的多少和饮料容量区间划分的大小都会影响频数的数值和分布。