五、计算题
1.如果投资项目A的预期回报率为8%,标准差为5%;而投资项目B的预期回报率为12%,标准差为7%,如何帮助投资者作出选择?[对外经济贸易大学2015研]
解:由题可得:E(XA)=8%,σA=5%;E(XB)=12%,σB=7%。
计算标准差系数得:
因为,,即项目B的投资风险小于项目A,且项目B的预期回报率高于项目A,所以,投资者应该选择投资项目B。
2.下表的样本数据代表30个稀土公司一个月的产量(单位:kg)。
(1)计算这组数据的均值、中位数和标准差。
(2)产量落在均值附近2个标准差范围内的占多大比例?
(3)表中第一个公司的产量极大,为1467.8kg。将这个数据删除后重新计算产量的均值、中位数和标准差。
(4)解释被删除的数据1467.8是如何影响三个描述性统计量的。[北京交通大学2015研]
解:(1)均值
将此30个数据按从大到小依次排列为1467.8,318,296.9,…,30.3,30;
则可得第15位和第16位数分别为78.8和76,所以
标准差
(2)根据(1)计算结果,可知均值附近2个标准差范围为(-365.58,684.34);
由表中数据可知除1467.8外,其他样本都在该范围内,所以产量落在均值附近2个标准差范围内的比例为29÷30×100%=96.7%。
(3)由题可计算出均值、中位数和标准差分别如下:
(4)删除的1467.8为极大值,对样本均值和标准差存在影响,删除后,样本均值和标准差均减小;而对位置平均数中位数几乎没有影响。
3.一项调查获得如表4-2所示容量为20的样本数据。
要求:
(1)确定该数据的中位数。
(2)以0~4、5~9、10~14等为组限,绘制等距式频数分布表及累积频数分布表。
(3)绘制频数分布直方图和累积频数分布图。
(4)指出该数据所属的频数分布类型。[东北财经大学2011研]
解:(1)将数据按照升序重新排序,结果如下:
2,3,4,4,5,5,6,7,8,8,8,9,10,11,12,12,13,17,18,21
所以中位数为:,即Me=8。
(2)绘制等距式频数分布表及累积频数分布表如表4-3所示。
(3)绘制频数分布直方图如图4-4所示。
图4-4 频数分布直方图
累计频数分布图如图4-5及图4-6所示。
图4-5 向上累积频数分布图
图4-6 向下累积频数分布图
(4)
SK=0.796说明该频数分布中等右偏分布,K=0.081说明该频数分布为尖峰分布,即与正态分布相比,该数据分布更集中。
4.甲乙两个班级统计学考试成绩资料如下:
甲班的平均分数为75分,标准差为7分;乙班的考试成绩频数分布表如表4-4所示。
表4-4 乙班考试成绩频数分布表
要求:
(1)计算乙班的平均考试分数。
(2)计算乙班考试分数的方差及标准差。
(3)计算乙班考试分数的离散系数。
(4)比较甲乙两个班级考试分数的离散程度的大小。[东北财经大学2011研]
解:(1)乙班平均考试分数计算过程如表4-5所示。
表4-5
由表4-5中数据可得
(2)方差计算过程如表4-6所示。
表4-6
由表4-6数据可得
(3)
(4)
,说明两个班的统计学考试成绩相比较,甲班的成绩较集中,乙班的成绩较分散。
5.随机抽取25个网络用户,得到他们的年龄数据如表4-7所示。
表4-7
要求:(1)计算众数、中位数。(2)计算平均数和标准差。(3)计算偏态系数和峰态系数。(4)对网民年龄的分布特征进行综合分析。[南京大学2009研]
解:(1)对表中数据按从小到大顺序排列:
15,16,17,18,19,19,19,20,20,21,22,22
23,23,23,24,24,25,27,29,30,31,34,38,41
由排序数据可知,年龄出现频数最多的是19和23,都出现3次,所以有两个众数,即Mo=19和Mo=23。
由于
所以。
(2)平均数
由平均数可得:
(3)偏态系数:
峰态系数:
(4)对网民年龄的分布特征进行综合分析的结果如下:从众数、中位数和平均数来看,网民年龄在23~24岁的人数占多数。由于标准差较大,说明网民年龄之间有较大差异。从偏态系数来看,年龄分布为右偏。并且偏态系数大于1,所以偏斜程度很大,说明年龄较大的网民人数相对于年轻网民人数来说很少。峰态系数为正值,所以为尖峰分布,说明网民的年龄分布相对集中。
6.下面是CAILY大学田径队纪录的1/4英里和1英里赛跑每次所用时间的数据(以分钟计)。
1/4英里的时间:0.92,0.98,1.04,0.90,0.99
1英里的时间:4.52,4.35,4.60,4.70,4.50
根据这些数据,一个教练评论说,1/4英里所用的时间已经趋于一致了,1英里所用时间差别较大。请用适当的指标来概括数据的特性并说明该教练的说法是否合理?[中央财大2006研]
解:根据已知数据,可以分别计算出1/4英里和1英里所用时间的样本均值和标准差。
1/4英里所用时间的样本均值为:
样本标准差为:
1英里所用时间的样本均值为:
样本标准差为:
由上面的计算结果可知,两个样本的均值不相同,因此不能简单地用标准差来比较这两个样本的离散程度。这两个样本的离散系数分别为:
1/4英里所用时间的离散系数为
1英里所用时间的离散系数为
因为v1>v2,所以可知1/4英里所用时间的离散程度大于1英里所用时间的离散程度。由此可以判断该教练的说法不合理。
7.下面是A、B两个班学生的数学考试成绩数据如表4-8,4-9所示。
A班:
表4-8
B班:
表4-9
(1)将两个班的考试成绩用一个公共的茎制成茎叶图,比较两个班考试成绩分布的特点。
(2)两个班考试成绩的描述统计量如表4-10所示。试进行比较分析。
表4-10
(3)要判断考试成绩是否有离群点,可使用哪些方法?
(4)要判断考试成绩是否服从正态分布,可使用哪些描述性方法?[人大2004研]
解:(1)构建两个班考试成绩的茎叶图,如图4-7所示。
图4-7 两组数据的茎叶图
从茎叶图可以看出,A班考试成绩的分布比较集中;B班考试成绩的分布比A班分散。
(2)从平均数、众数与中位数可以看出A班成绩明显好于B班;A班成绩的方差小于B班,说明A班成绩相对于B班比较集中;两个班成绩的偏斜度较低,成绩分布比较对称;从极差可以看出B班的成绩差异大于A班。
(3)可使用“3σ”准则:A班学生的数学成绩全部在±3个标准差之内,即75±3×10.44=(43.68,106.32),所以A班学生的成绩中没有离群点。B班学生的数学成绩全部在±3个标准差之内,即68±3×17.64=(15.08,120.92),所以B班学生的成绩中没有离群点。
还可以使用四分位数的方法:当观测值落在区间(QU+3IQR,+∞)或(-∞,QL-3IQR)上时,认为该观测值为离群值。其中,IQR﹦QU-QL为四分位距,QU和QL分别为上、下四分位数。
(4)可使用偏度系数和峰度系数:由于A班的偏度系数SK=0.11>0,峰度系数K=-0.35<0,说明A班学生成绩的分布为右偏分布,且与正态分布相比略有一些扁平。B班的偏度系数SK=0.11,峰度系数K=-0.76<0,说明B班学生成绩的分布也为右偏分布,且与正态分布相比较为扁平。
还可以使用箱线图的方法:当数据服从正态分布时箱线图应该是对称的;当Me(中位数)在箱子内部靠左时,数据呈右偏分布;当Me(中位数)在箱子内部靠右时,数据呈左偏分布。
8.某银行为缩短顾客到银行办理业务等待的时间,准备采用两种排队方式进行试验:一种是所有顾客都进入一个等待队列;另一种是顾客在三个业务窗口处列队三排等待。为比较哪种排队方式使顾客等待的时间更短,两种排队方式各随机抽取的9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二种排队方式的等待时间(单位:分钟)如下:
5.5,6.6,6.7,6.8,7.1,7.3,7.4,7.8,7.8
(1)画出第二种排队方式等待时间的茎叶图。
(2)比较两种排队方式等待时间的离散程度。
(3)如果让你选择一种排队方式,你会选择哪一种?试说明理由。[人大2006研]
解:(1)第二种排队方式等待时间的茎叶图如图4-8所示。
叶单位=0.1
图4-8 第二种排队方式等待时间的茎叶图
(2)第二种排队方式等待时间的均值为:
标准差为:
第一种排队方式的均值,标准差,则离散系数
第二种排队方式的离散系数
由于v1>v2,因此第二种排队方式的离散程度较小。
(3)由于第二种排队方式的平均等待时间小于第一种排队方式,并且离散程度较小,所以会选择第二种排队方式。
9.一家网吧想了解上网人员的年龄分布状况,随机抽取25人,得到他们的年龄数据如表4-11所示。
表4-11
(1)画出该组数据的茎叶图。
(2)画出该组数据的箱线图。
(3)根据茎叶图和箱线图说明上网者年龄分布的特征。[人大2005研]
解:(1)该组数据的茎叶图如图4-9所示。
图4-9 上网人员的年龄分布的茎叶图
(2)由表中数据可得:最大值=41,最小值=15
所以中位数=23。
即QL在第6个数值(19)和第7个数值(19)之间0.5的位置上,因此QL=19×0.5+19×0.5=19。
即QU在第19个数值(27)和第20个数值(29)之间0.5的位置上,因此QU=27×0.5+29×0.5=28。
由以上数据可得箱线图,如图4-10所示。
图4-10 上网人员的年龄分布的箱线图
(3)由茎叶图和箱线图可以看出,上网者年龄为右偏分布。