贾俊平《统计学》(第6版)考研真题(含复试)与典型习题详解
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

五、计算题

1.如果投资项目A的预期回报率为8%,标准差为5%;而投资项目B的预期回报率为12%,标准差为7%,如何帮助投资者作出选择?[对外经济贸易大学2015研]

解:由题可得:E(XA)=8%,σA=5%;E(XB)=12%,σB=7%。

计算标准差系数得:

因为,,即项目B的投资风险小于项目A,且项目B的预期回报率高于项目A,所以,投资者应该选择投资项目B。

2.下表的样本数据代表30个稀土公司一个月的产量(单位:kg)。

(1)计算这组数据的均值、中位数和标准差。

(2)产量落在均值附近2个标准差范围内的占多大比例?

(3)表中第一个公司的产量极大,为1467.8kg。将这个数据删除后重新计算产量的均值、中位数和标准差。

(4)解释被删除的数据1467.8是如何影响三个描述性统计量的。[北京交通大学2015研]

解:(1)均值

将此30个数据按从大到小依次排列为1467.8,318,296.9,…,30.3,30;

则可得第15位和第16位数分别为78.8和76,所以

标准差

(2)根据(1)计算结果,可知均值附近2个标准差范围为(-365.58,684.34);

由表中数据可知除1467.8外,其他样本都在该范围内,所以产量落在均值附近2个标准差范围内的比例为29÷30×100%=96.7%。

(3)由题可计算出均值、中位数和标准差分别如下:

(4)删除的1467.8为极大值,对样本均值和标准差存在影响,删除后,样本均值和标准差均减小;而对位置平均数中位数几乎没有影响。

3.一项调查获得如表4-2所示容量为20的样本数据。

要求:

(1)确定该数据的中位数。

(2)以0~4、5~9、10~14等为组限,绘制等距式频数分布表及累积频数分布表。

(3)绘制频数分布直方图和累积频数分布图。

(4)指出该数据所属的频数分布类型。[东北财经大学2011研]

解:(1)将数据按照升序重新排序,结果如下:

2,3,4,4,5,5,6,7,8,8,8,9,10,11,12,12,13,17,18,21

所以中位数为:,即Me=8。

(2)绘制等距式频数分布表及累积频数分布表如表4-3所示。

(3)绘制频数分布直方图如图4-4所示。

图4-4  频数分布直方图

累计频数分布图如图4-5及图4-6所示。

图4-5  向上累积频数分布图

图4-6  向下累积频数分布图

(4)

SK=0.796说明该频数分布中等右偏分布,K=0.081说明该频数分布为尖峰分布,即与正态分布相比,该数据分布更集中。

4.甲乙两个班级统计学考试成绩资料如下:

甲班的平均分数为75分,标准差为7分;乙班的考试成绩频数分布表如表4-4所示。

表4-4  乙班考试成绩频数分布表

要求:

(1)计算乙班的平均考试分数。

(2)计算乙班考试分数的方差及标准差。

(3)计算乙班考试分数的离散系数。

(4)比较甲乙两个班级考试分数的离散程度的大小。[东北财经大学2011研]

解:(1)乙班平均考试分数计算过程如表4-5所示。

表4-5

由表4-5中数据可得

(2)方差计算过程如表4-6所示。

表4-6

由表4-6数据可得

(3)

(4)

,说明两个班的统计学考试成绩相比较,甲班的成绩较集中,乙班的成绩较分散。

5.随机抽取25个网络用户,得到他们的年龄数据如表4-7所示。

表4-7

要求:(1)计算众数、中位数。(2)计算平均数和标准差。(3)计算偏态系数和峰态系数。(4)对网民年龄的分布特征进行综合分析。[南京大学2009研]

解:(1)对表中数据按从小到大顺序排列:

15,16,17,18,19,19,19,20,20,21,22,22

23,23,23,24,24,25,27,29,30,31,34,38,41

由排序数据可知,年龄出现频数最多的是19和23,都出现3次,所以有两个众数,即Mo=19和Mo=23。

由于

所以

(2)平均数

由平均数可得:

(3)偏态系数:

峰态系数:

(4)对网民年龄的分布特征进行综合分析的结果如下:从众数、中位数和平均数来看,网民年龄在23~24岁的人数占多数。由于标准差较大,说明网民年龄之间有较大差异。从偏态系数来看,年龄分布为右偏。并且偏态系数大于1,所以偏斜程度很大,说明年龄较大的网民人数相对于年轻网民人数来说很少。峰态系数为正值,所以为尖峰分布,说明网民的年龄分布相对集中。

6.下面是CAILY大学田径队纪录的1/4英里和1英里赛跑每次所用时间的数据(以分钟计)。

1/4英里的时间:0.92,0.98,1.04,0.90,0.99

1英里的时间:4.52,4.35,4.60,4.70,4.50

根据这些数据,一个教练评论说,1/4英里所用的时间已经趋于一致了,1英里所用时间差别较大。请用适当的指标来概括数据的特性并说明该教练的说法是否合理?[中央财大2006研]

解:根据已知数据,可以分别计算出1/4英里和1英里所用时间的样本均值和标准差。

1/4英里所用时间的样本均值为:

样本标准差为:

1英里所用时间的样本均值为:

样本标准差为:

由上面的计算结果可知,两个样本的均值不相同,因此不能简单地用标准差来比较这两个样本的离散程度。这两个样本的离散系数分别为:

1/4英里所用时间的离散系数为

1英里所用时间的离散系数为

因为v1>v2,所以可知1/4英里所用时间的离散程度大于1英里所用时间的离散程度。由此可以判断该教练的说法不合理。

7.下面是A、B两个班学生的数学考试成绩数据如表4-8,4-9所示。

A班:

表4-8

B班:

表4-9

(1)将两个班的考试成绩用一个公共的茎制成茎叶图,比较两个班考试成绩分布的特点。

(2)两个班考试成绩的描述统计量如表4-10所示。试进行比较分析。

表4-10

(3)要判断考试成绩是否有离群点,可使用哪些方法?

(4)要判断考试成绩是否服从正态分布,可使用哪些描述性方法?[人大2004研]

解:(1)构建两个班考试成绩的茎叶图,如图4-7所示。

图4-7  两组数据的茎叶图

从茎叶图可以看出,A班考试成绩的分布比较集中;B班考试成绩的分布比A班分散。

(2)从平均数、众数与中位数可以看出A班成绩明显好于B班;A班成绩的方差小于B班,说明A班成绩相对于B班比较集中;两个班成绩的偏斜度较低,成绩分布比较对称;从极差可以看出B班的成绩差异大于A班。

(3)可使用“3σ”准则:A班学生的数学成绩全部在±3个标准差之内,即75±3×10.44=(43.68,106.32),所以A班学生的成绩中没有离群点。B班学生的数学成绩全部在±3个标准差之内,即68±3×17.64=(15.08,120.92),所以B班学生的成绩中没有离群点。

还可以使用四分位数的方法:当观测值落在区间(QU+3IQR,+∞)或(-∞,QL-3IQR)上时,认为该观测值为离群值。其中,IQR﹦QU-QL为四分位距,QU和QL分别为上、下四分位数。

(4)可使用偏度系数和峰度系数:由于A班的偏度系数SK=0.11>0,峰度系数K=-0.35<0,说明A班学生成绩的分布为右偏分布,且与正态分布相比略有一些扁平。B班的偏度系数SK=0.11,峰度系数K=-0.76<0,说明B班学生成绩的分布也为右偏分布,且与正态分布相比较为扁平。

还可以使用箱线图的方法:当数据服从正态分布时箱线图应该是对称的;当Me(中位数)在箱子内部靠左时,数据呈右偏分布;当Me(中位数)在箱子内部靠右时,数据呈左偏分布。

8.某银行为缩短顾客到银行办理业务等待的时间,准备采用两种排队方式进行试验:一种是所有顾客都进入一个等待队列;另一种是顾客在三个业务窗口处列队三排等待。为比较哪种排队方式使顾客等待的时间更短,两种排队方式各随机抽取的9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二种排队方式的等待时间(单位:分钟)如下:

5.5,6.6,6.7,6.8,7.1,7.3,7.4,7.8,7.8

(1)画出第二种排队方式等待时间的茎叶图。

(2)比较两种排队方式等待时间的离散程度。

(3)如果让你选择一种排队方式,你会选择哪一种?试说明理由。[人大2006研]

解:(1)第二种排队方式等待时间的茎叶图如图4-8所示。

叶单位=0.1

图4-8  第二种排队方式等待时间的茎叶图

(2)第二种排队方式等待时间的均值为:

标准差为:

第一种排队方式的均值,标准差,则离散系数

第二种排队方式的离散系数

由于v1>v2,因此第二种排队方式的离散程度较小。

(3)由于第二种排队方式的平均等待时间小于第一种排队方式,并且离散程度较小,所以会选择第二种排队方式。

9.一家网吧想了解上网人员的年龄分布状况,随机抽取25人,得到他们的年龄数据如表4-11所示。

表4-11

(1)画出该组数据的茎叶图。

(2)画出该组数据的箱线图。

(3)根据茎叶图和箱线图说明上网者年龄分布的特征。[人大2005研]

解:(1)该组数据的茎叶图如图4-9所示。

图4-9  上网人员的年龄分布的茎叶图

(2)由表中数据可得:最大值=41,最小值=15

所以中位数=23。

即QL在第6个数值(19)和第7个数值(19)之间0.5的位置上,因此QL=19×0.5+19×0.5=19。

即QU在第19个数值(27)和第20个数值(29)之间0.5的位置上,因此QU=27×0.5+29×0.5=28。

由以上数据可得箱线图,如图4-10所示。

图4-10  上网人员的年龄分布的箱线图

(3)由茎叶图和箱线图可以看出,上网者年龄为右偏分布。