2014年中山大学432统计学[专业硕士]考研真题及详解
一、(每题3分,共60分)单项选择题
1.在公理化结构中,概率是针对时间定义的,可视为事件域上的一个集合函数。以下那一条不属于公理化结构中“概率”所应满足的条件( )。
A.非负性
B.不连续性
C.可列可加性
D.规范性
【答案】B
【解析】概率的公理化定义中概率应满足以下条件:①非负性,②规范性,③可列可加性。一般在连续性随机变量中,概率具有连续性。
2.两个人轮流抛一个骰子,约定谁先抛出6谁获胜,则后抛者获胜的概率为( )。
A.1/2
B.5/12
C.6/11
D.5/11
【答案】D
【解析】由于是轮流掷骰子,所以第一个人获胜的概率为
第二个人获胜的概率为
则有y=5/6x,解方程x+5/6x=1,得x=6/11,则5/6x=5/11。
3.一个盒子有3个蓝弹子和两个红弹子,第二个盒子有两个蓝的和五个红的,随机从一个盒子中抽取一个弹子,发现它是蓝的,则该弹子来自第一个盒子的概率是( )。
A.3/10
B.3/5
C.21/31
D.10/31
【答案】C
【解析】设事件A表示:抽取的是蓝弹子,事件B1表示:抽取的弹子来自第一个盒子,B2表示:抽取的弹子来自第二个盒子。所求即为P(B1|A)。根据贝叶斯公式得:
4.设A,B,C是任意事件,满足AB⊂C,则( )。
A.A⊂C且B⊂C
B.
C.A⊂C或B⊂C
D.
【答案】B
【解析】AB⊂C,则,即。而,则。
5.设A1,A2,…,Ak为任意事件,Ω和∅分别为样本空间和空集。下列叙述不正确的是( )。
A.Ω与任意事件Ai独立
B.∅与任意事件Ai独立
C.若A1,A2,…,Ak相互独立,则A1,A2,…,Ak两两独立
D.若A1,A2,…,Ak两两独立,则A1,A2,…,Ak相互独立
【答案】D
【解析】一般,设A1,A2,…,An是n(n≥2)个事件,如果对于其中任意i个事件的积事件的概率,都等于各事件概率之积,则称事件A1,A2,…,An相互独立。因此若事件A1,A2,…,An(n≥2)相互独立,则其中任意两个事件必是独立的,即两两独立;但若事件两两独立不能得到所有事件相互独立。
6.设随机变量X服从参数为λ的泊松分布,则下列条件中导出参数λ=2的条件是( )。
A.EX=1/2
B.Var(X)=1/4
C.P{X=1}=P{X=2}
D.P{X=2}=2P{X=1}
【答案】C
【解析】AB两项,泊松分布的期望和方差均为参数λ,即若参数λ=2,应有EX=λ=2,Var(X)=λ=2。CD两项,泊松分布的概率分布函数为
因此P{X=1}=P{X=2}。
7.设随机变量X~N(μ,σ2),则随σ的增大,概率P{|X-μ|≤σ}( )。
A.单调增大
B.单调减小
C.保持不变
D.增减不定
【答案】C
【解析】原分布服从正态分布,即X~N(μ,σ2),则
即Z服从标准正态分布。
为一定值,与σ无关。
8.假设独立随机变量X和Y服从同一名称的概率分布(二者的分布参数未必相同),且X+Y也服从同一名称的概率分布,则X和Y都服从( )。
A.均匀分布
B.指数分布
C.正态分布
D.对数正态分布
【答案】C
【解析】正态分布的可加性,设随机变量X1,X2相互独立且均服从正态分布N(μi,σi2),i=1,2,则a1X1+a2X2~N(a1μ1+a2μ2,a12σ12+a22σ22)。
9.设X为一随机变量,其期望为EX,C为任意常数,则( )。
A.E(X-C)2=E(X-EX)2
B.E(X-C)2≥E(X-EX)2
C.E(X-C)2≤E(X-EX)2
D.E(X-C)2=0
【答案】B
【解析】E(X-C)2=E(X-EX+EX-C)2=E(X-EX)2+2(EX-C)·E(X-EX)+(EX-C)2=E(X-EX)2+0+(EX-C)2≥E(X-EX)2
10.设X~B(100,0.5),设Ф(X)为N(0,1)的分布函数,则P(X>30)近似于( )。
A.Ф(-4)
B.Ф(4)
C.Ф(-4/5)
D.Ф(4/5)
【答案】B
【解析】若X~B(n,p),当n足够大,且p不太靠近0或1时,二项分布逼近正态分布,X的均值为np,方差为np(1-p)。该题中,n=100,p=0.5,则EX=50,DX=25,P(X>30)近似于
11.设X1,X2,…,Xn是取自N(0,1)的样本,且n≥2,X(_)为样本均值,
则下列结论正确的是( )。
A.nX(_)~N(0,1)
B.
C.Q2~χ2(n)
D.
【答案】B
【解析】Xi由于服从标准正态分布,因此X12~χ2(1),根据卡方分布的可加性可知
由于X1与相互独立,因此
12.从同一正态总体中进行抽样,每一份样本的样本量都为16,分别抽1000与4000次,从而分别得到1000个样本均数与4000个样本均数,则( )。
A.前1000个样本均数的变异(方差)小,大约是后者的1/2
B.前1000个样本均数的变异大,大约是后者的2倍
C.前1000个样本均数的变异大,大约是后者的4倍
D.前1000个样本均数的变异与后者差不多,都大约为原正态总体的标准差的1/4
【答案】D
【解析】样本均数的标准差为(n为样本量),它反映了样本均数之间的变异程度。每一份样本的样本量都为16,因此无论抽样次数为多少,样本均数的变异都差不多,大约为1/4σ。
13.设n个随机变量X1,X2,…,Xn独立分布,Var(X1)=σ2<+∞,X(_)与S2分别为样本均值与样本方差,则( )。
A.S与X(_)相互独立
B.S是σ的相合估计量
C.S是σ的最大似然估计量
D.S是σ的无偏估计量
【答案】B
【解析】当X1,X2,…,Xn相互独立且服从正态分布时,S与X(_)相互独立,且E(S2)=σ2,但无法推出S是σ的无偏估计量,因此AD错误;由于不清楚X的具体分布,因此无法证明S是σ的最大似然估计量,因此C错误。
14.关于最大似然估计量和无偏估计量的叙述,下列正确的是( )。
A.若T为参数θ的最大似然估计量,则g(T)为g(θ)的最大似然估计量
B.若T为参数θ的无偏估计量,则g(T)为g(θ)的无偏估计量
C.最大似然估计量和无偏估计量总是唯一的
D.以上皆非
【答案】A
【解析】A项,由最大似然估计的不变性,若θ(∧)是θ的最大似然估计,g(θ)是θ的连续函数,则g(θ)的最大似然估计为g(θ(∧))。B项,无偏估计不具有不变性,即:若θ(∧)是θ的无偏估计,则一般而言g(θ(∧))不是g(θ)的无偏估计,除非g(θ)是θ的线性函数。C项,无偏估计量不是唯一的。
15.设X1,X2,…,Xn正态总体X~N(μ,σ2)的样本,则μ2+σ2的矩法估计量为( )。
A.
B.
C.
D.
【答案】C
【解析】根据题意μ1=E(X)=μ,μ2=E(X2)=D(X)+[E(X)]2=σ2+μ2,μ1为总体矩,于是μ2+σ2的矩法估计量为
16.设X1,X2,…,Xn总体X的样本,则总体均值μ的相合估计量为( )。
A.Xn
B.X(_)
C.max{X1,X2,…,Xn}
D.min{X1,X2,…,Xn}
【答案】B
【解析】若θ(∧)n=θ(∧)n(X1,X2,…,Xn)为参数θ的估计量,若对于任意θ∈Θ,当n→∞时,θ(∧)n(X1,X2,…,Xn)依概率收敛于θ,则称θ(∧)n为θ的相合估计量。由大数定律知,"ε>0,有
所以是μ的相合估计量。
17.假设其他条件不变,把α从5%降低到2.5%则总体均值μ的置信程度1-α的置信区间的宽度将( )。
A.增加
B.不变
C.降低
D.可能增加,也可能降低
【答案】A
【解析】总体均值μ的置信程度1-α的置信区间为或,当其他条件不变,α降低时,或增加,因而置信区间的宽度将增加。
18.关于假设检验第二类错误概率的叙述,下列正确的是( )。
A.H0为真,经检验拒绝H0的概率
B.H0为真,经检验接受H0的概率
C.H0为假,经检验拒绝H0的概率
D.H0为假,经检验接受H0的概率
【答案】D
【解析】第一类错误是原假设H0为真却被拒绝了,犯这种错误的概率用α表示,所以也称α错误或弃真错误;第二类错误是原假设H0为伪却没有拒绝,犯这种错误的概率用β表示,所以也称β错误或取伪错误。
19.甲、乙两人服从标准正态分布的随机数发生器分别产出30个随机数字作为样本,求得本均数`x1,`x2,样本方差S12,S22,则( )。
A.`x1=`x2,S12=S22
B.作两样本t检验,必然接受零假设,得出两总体均值无差别的结论
C.由甲、乙两样本求出的两总体方差比值(σ12/σ12)的95%置信区间,必然包含0
D.分别由甲、乙两样本求出的各自总体均数的95%置信区间,可能没有交集
【答案】D
【解析】A项,由于样本是随机的,抽出不同的样本得到的均值与方差往往是不同的。B项,同样由于样本的随机性,根据样本得到的估计值很可能不同于总体真值,因而两样本的t检验不一定接受零假设。C项,两总体方差比的置信区间为
若第一个总体的样本方差不为0,则其比值的95%置信区间不可能包含0。
20.一名研究者从甲、乙两地区分别随机抽取了100名成年人,测得他们的平均身高m1与m2。欲检验H0:μ1=μ2,经检验水平α=0.05的假设检验,得到p值小于α。这项结果表明( )。
A.如果μ1=μ2,则从抽样中观察到样本均数m1与m2这样的差异以及更极端的差异的可能性小于0.05
B.证明了两个地区的身高的总均数μ1与μ2有差异
C.有95%的可能性μ1与μ2有差异
D.有5%的可能性μ1与μ2有差异
【答案】A
【解析】p值为当原假设为真时所得到的样本观察结果或更极端结果出现的概率。当给定了显著性水平α,则在双侧检验中,p<α/2拒绝原假设。A项,如果μ1=μ2,即原假设为真,则从抽样中观察到样本均数m1与m2这样的差异以及更极端的差异的可能性为p,由题,p值小于α,因此其可能性小于0.05。B项,p值小于α,但不一定小于α/2,因此不能拒绝原假设,即不能拒绝两个地区的身高的总均数μ1与μ2无差异的假设。CD两项,当原假设为真时,以95%的可能性判断H0为真(即μ1与μ2无差异),以5%的可能性判断H0不真。
二、(共90分)计算分析题
1.(共13分)设正态分布随机变量X~N(12,9)与Y~N(10,16)相互独立。
(1)(7分)分别求U=2X+Y与V=X-Y的分布,并说明U与V是否独立;
(2)(6分)求概率P{12<X+Y<32}。(用标准正态分布函数Ф(X)表示)
解:(1)EX=12,DX=9,EY=10,DY=16,且X与Y相互独立,根据正态分布的性质知相互独立的服从正态分布的随机变量的线性组合仍服从正态分布,所以
EU=E(2X+Y)=2EX+EY=34
DU=D(2X+Y)=4DX+DY=52
因此U~N(34,52)
EV=E(X-Y)=EX-EY=2
DV=D(X-Y)=DX+DY=25
因此V~N(2,25)
Cov(U,V)=E(UV)-E(U)E(V)=E(2X2-XY-Y2)-68=2EX2-EXY-EY2-68
EX2=DX+(EX)2=153
EY2=DY+(EY)2=116
X与Y相互独立,因此EXY=EX·EY=120,因此
Cov(U,V)=2×153-120-116-68=2
由于在正态分布的场合,独立性与不相关性是一致的,因此U与V不独立。
(2)令Z=X+Y,则
EZ=E(X+Y)=EX+EY=22
DZ=D(X+Y)=DX+DY=25
因此Z~N(22,25)
2.(共21分)设正态总体X~N(0,σ2),从中抽取容量为4的随机样本X1,X2,X3,X4,令
(1)(7分)分别求常数b1,b2,b3,使b1Q1,b2Q2,b3Q3是方差σ2的无偏估计量;
(2)(7分)对(1)中3个无偏估计量,比较其优劣;
(3)(7分)基于Q2构建σ2的一个95%的置信区间。
解:(1)欲使b1Q1,b2Q2,b3Q3为方差σ2的无偏估计量,则需证明
由于X1,X2,X3,X4是来自总体X的随机样本,因此Xi之间相互独立且其均值与方差和总体相同,于是有:
则b13σ2=σ2,b24σ2=σ2,b34σ2=σ2,因此b1=1/3,b2=b3=1/4。
(2)因为X~N(0,σ2),故(X/σ)2~χ2(1),E(X2/σ2)=1,D(X2/σ2)=2,E(X2)=σ2,D(X2)=2σ4,
其中用到了X、Y独立时D(XY)>D(X)D(Y)的性质。
所以b2Q2比b1Q1以及b3Q3更有效。
(3)
由于Xi服从正态分布X~N(0,σ2),所以,因此
即
于是有
据此可推导出σ2在95%置信水平下的置信区间为:
3.(共21分)设X1,X2,X3为来自总体X的随机样本,X的概率密度函数为f(x;θ)=θxθ-1,0<x<1,其中θ>0为未知参数。令Yi=-ln(Xi)(i=1,2,3),
(1)(7分)求θ的矩估计和最大似然估计
(2)(7分)求Yi的分布
(3)(7分)给定检验水平α=0.05,以Y(_)为检验统计量,对假设问题H0:θ=1 v.s. H1:θ=2构建假设检验。
解:(1)①矩法估计
令
则μ=X(_)=θ/(θ+1),解得θ的矩估计为θ(∧)=X(_)/(1-X(_))。
②最大似然估计
构造似然函数
取对数
建立似然方程
求解得最大似然估计为
(2)Yi=-ln(Xi)
当0<x<1时,Yi>0。
即Yi的分布为
由此可见Y服从参数为θ的指数分布,即Y~Exp(θ)。
(3)由题(2)知:
故
故Y(_)的分布密度函数为
于是Y(_)的联合密度函数为:
构造似然比统计量且当
拒绝原假设,由于似然比统计量是关于Y(_)的增函数,因此本题的拒绝域等价于{Y1,Y2,Y3|Y(_)>C1-α},其中C1-α为Γ(3,3)的上1-α分位数。
4.(共21分)记X1,X2为来自均匀分布U[θ,θ+1]的样本。假设H0:θ=0 v.s. H1:θ=0.5。现有两个检验:检验I:拒绝H0,若X1>0.95;检验II:拒绝H0,若X1+X2>C。
(1)(7分)求检验I的第一类错误概率与第二类错误概率;
(2)(14分)若检验I与检验II的第一类错误概率相等,求C的值,并求出检验II相应的第二类错误概率。
解:(1)检验I的拒绝域为W={X1>0.95},当H0为真时,θ=0;当H0不真时,θ=0.5。
X1服从均匀分布U[θ,θ+1],则X1的密度函数为
该检验的第一类错误(即拒真错误)概率为
该检验的第二类错误(即取伪错误)概率为
(2)检验II的拒绝域为W={X1+X2>C},当H0为真时,第一类错误(即拒真错误)概率为P(X1+X2>C|θ=0)。
当0<C≤1时:
Var(θ(∧))=E(θ(∧)-θ)2
解得,不满足条件。
当1<C≤2时
解得,因此。
检验II的第二类错误(即取伪错误)概率
5.(共14分)现有简单线性回归模型Y=β0+β1x+ε,ε~N(0,σ2)。记样本观测数据为(X1,Y1),(X2,Y2),…,(Xn,Yn)。
(1)(9分)求未知参数β0,β1,σ2的最大似然估计;
(2)(5分)写出β1的95%置信区间。
答:(1)假如模型的参数估计量为β(∧)0,β(∧)1,在满足基本假设条件下,Yi服从正态分布N(β(∧)0+β(∧)1Xi,σ2),因此Y的概率函数为
由于Yi相互独立,因此所有的样本观测值的联合概率,即似然函数为:
将该似然函数最大化,即可求得模型参数的最大似然估计。
由于似然函数的最大化和似然函数对数的最大化是等价的,因此,取对数似然函数如下:
对L*求最大值,等价于对∑(Yi-β(∧)0-β(∧)1Xi)2求最小值,即
解得模型参数估计量
解似然方程:
得σ2的最大似然估计为:
(2)因为
置信水平为95%,从t分布表中查得自由度为(n-k-1)的临界值tα/2,而t值处在(-tα/2,tα/2)的概率是1-α,即P(-tα/2<t<tα/2)=1-α,则
于是β1的95%置信区间为
附:
1.正态分布N(μ,σ2)的密度函数:
2.Gamma分布Г(α,β)的密度函数
(1)α=1时,即参数为1/β的指数分布;α=v/2,β=2时,即为自由度v的χ2分布χ2(v)。
(2)若X~Г(α,β),则Var(X)=αβ2。
3.χ2分布分位数。