2.4 数理统计学基础理论
数理统计学是应用数学的一个分支,它以概率论为基础研究如何以有效的方式收集、整理和分析受到随机性影响的数据,以对所考察的问题做出推断和预测,直至为采取决策和行动提供依据和建议。
2.4.1 Bayes条件概率公式
设A1, A2 ,…, Am为样本空间S的一个划分,满足
1. Ai∩Aj=∅(i≠ j);
2. A1∪A2∪…∪Am=S;
3. P( Ai)>0 (i=1,2,…, m).
则对任一事件B, P(B)>0,有
2.4.2 几种常用的概率分布
1.高斯分布
定义2.9 (高斯分布)设连续型随机变量ξ具有概率密度函数
其中,μ>0,σ>0,且为常数,则ξ服从参数为μ,σ2的正态分布或高斯分布,记为ξ~N(μ,σ2)。
2.均匀分布
定义2.10 (均匀分布)设连续型随机变量ξ具有概率密度函数
则称ξ在区间[a, b]上服从均匀分布,记作ξ~U (a, b)。
均匀分布描绘几何型随机实验中随机点的分布。假设向区间[a, b]上均匀地掷随机点,以ξ表示随机点落点的坐标,那么ξ在[a, b]上服从均匀分布。
3.二项分布
定义2.11 (二项分布)如果离散型随机变量ξ满足
则称ξ服从参数为n, p的二项分布,记作ξ~B(n, p)。
4.χ2分布
定义2.12 (χ2分布)设X1, X2,…, Xn是独立同分布的随机变量,且都服从标准正态分布N (0,1),则随机变量服从自由度为n的χ2分布,记作χ2 ~χ2 (n)。χ2的概率密度函数为
其中,。
5.非中心χ2分布
定义2.13 (非中心χ2分布)设X1, X2,…, Xn是n个独立同分布的高斯随机变量,其均值为零,方差为σ2,则称服从自由度为n的非中心χ2分布,其中Bi为非随机变量。
6.t分布
定义 2.14 ( t分布)设随机变量X 与Y相互独立,并且X~N (0,1),Y~χ2 (n),则称服从自由度为n的t分布,记作T~t(n)。
7.F分布
定义 2.15 ( F分布)设随机变量X 与Y 相互独立,且X~χ2 (m),Y~χ2 (n),则称服从自由度为(m, n)的F分布,记作F~F (m, n),其中,m称为第一自由度,n称为第二自由度。
2.4.3 总体与随机抽样
在数理统计学中,研究对象的全体所构成的集合称为总体。
总体中的元素或个体可能是有限的或无限的,前者称为有限总体,后者称为无限总体。数理统计所关心的不是总体本身,而是总体的某些数量的性质。例如,在一群人所构成的总体中,我们关心的是这群人的某一生理指标(例如身高、体重或血压等)的分布情况,或同时考虑多个指标的分布情况。
定义2.16 (总体分布)假设总体的某一个或多个指标变量的取值情况已知,我们就可以计算出它(或它们)的分布函数,而这个分布函数在总体上确定了一个概率分布,称为总体分布。
实际上总体分布总是全部或部分未知的,而数理统计学的任务就在于已经知道了一部分个体的指标变量值,以此为出发点推断总体分布的性质。
定义2.17 (样本)总体的一部分个体的指标变量值称为一个样本。
数理统计学就是用一定的数学方法,根据已知的样本去推断总体的未知性质。为此,要求有获得样本的科学方法。
定义2.18 (随机抽样)如果一种抽取样本的方法能够使得每一个可能的样本被抽取的机会是可计算的,也就是可以按照某种概率结构来抽取样本,那么这种抽样方法称为随机抽样。
以有限总体为例。假设总体Ω有N个个体:ω1,ω2,…,ωN,若简记iω为i,则该总体可表示为Ω={1,2,…, N}。从Ω中随机抽样的常用方法有还原和非还原、有次序和无次序抽样。
(1)还原抽样:每次从总体随意取出一个个体并在下次抽样之前放回总体。
(2)非还原抽样:每次从总体随意取出一个个体,取出的个体不再放回总体。
(3)有次序抽样:每次从总体随意取出一个个体,记下个体的号码和它出现的序号。 n 次有序取样的结果是一个 n 维向量(x1,x2,…,xn),其中xi(i=1,2,…, n)表示第i次取样取到的元素,它可以取{1,2,…, N}中的某个数。
(4)无次序抽样:每次从总体中随意取出一个元素,只记下该元素的号码(不关心它出现的序号)。
每一个抽样过程蕴含着产生一个可能的样本,由于这个样本是未被实现的,因此是一个随机变量(或随机向量)。当抽样过程被实施后便得到一组真实的数据,称为样本值。
用X 表示一个总体,Xi代表一个个体相应的指标变量值,(x1, x2,…, xn)表示一组(已实现的)容量为n的样本值。
定义2.19 (简单样本)如果样本(X1, X2,…, Xn)中每个分量Xi都与总体X 具有相同的分布,且它们之间是相互独立的,则称其为简单样本。
数理统计学中讨论的大部分是简单样本,简称为样本。各种统计方法归根到底依据样本。样本中包含了总体分布的信息,通过对样本进行一定的加工,提取这些信息并集中起来用于推断总体的信息。对样本进行加工所得到的就是所谓的统计量。
定义 2.20 (统计量)设(X1, X2,…, Xn)为一个样本,它的一个与总体分布无关的函数 f (X1, X2,…, Xn)称为一个统计量。
由于统计量都是随机变量,它应有确定的概率分布,统计量的分布称为抽样分布,求抽样分布是数理统计的基础问题之一。
2.4.4 正态分布下抽样分布的性质
性质 2.1 设(X1, X2,…, Xn)为来自正态分布总体N(a,σ2)的一个样本,统计量U是样本的任意确定的线性函数,即,则U也服从正态分布,且
即
性质2.2 设(X1, X2,…, Xn)为来自正态分布总体N(a,σ2)的一个样本,则样本均值仍服从正态分布,且有
性质2.3 设(X1, X2,…, Xn)为来自正态分布总体N(a,σ2)的一个样本,则样本方差与样本均值X 相互独立,且
性质2.4 若X~N(μ,σ2I),Y=AX+b, A为正交阵,b为常数向量,则Y~N(Aμ,σ2I),其中, I 为单位矩阵。
性质2.5 设(X1, X2,…, Xn)为来自正态总体N(a,σ2)的一个样本,则
性质 2.6 设(X1, X2,…, Xm)和(Y1,Y2,…,Yn)为来自正态总体N(a1,σ2)和N (a2 ,σ2 )的两个样本,它们相互独立,则
其中,,
性质 2.7 设(X1, X2,…, Xm)和(Y1,Y2,…,Yn)为来自正态总体和的两个样本,它们相互独立,则