从零开始利用Excel与Python进行数据分析
上QQ阅读APP看书,第一时间看更新

2.1.2
离散程度

平均数、中位数、众数可以反映数据的集中趋势,但无法反映数据的离散程度。下面介绍四分位距、方差、标准差3个反映数据离散程度的统计量。

1.四分位距

将一组由小到大排序的数据划分成四等份,划分位置对应的数据为四分位数,如图2-1所示,Q1、Q2和Q3为四分位数。

图2-1 四分位数图示

四分位数的划分位置有两种情况,一种是划分位置在数值上,如图2-1中Q1和Q3在具体的数值上,那么这两个数值即为Q1和Q3的值;另一种是划分位置在两个数值之间,如Q2,其值的计算方法是划分位置两侧数值相加除以2。用第三四分位数减去第一四分位数即可得到四分位距,四分位距越小表示数据越集中。下面以判断考试分数等级为例对四分位数进行说明,分数等级判断标准如表2-5所示。

表2-5 分数等级判断标准

通过四分位数,可以明确划分的分数等级标准是否合理。按照划分的标准,72分属于等级C,但如果计算的四分位数分别为86、70、56、43,则说明72分实际是比较高的分数。

2.方差和标准差

方差是数据与平均数之差的平方和的平均数。标准差是方差的算术平方根,是衡量数据离散程度的统计量。下面计算表2-2中数据的方差和标准差,之前已经计算出数据时平均数为224,则

方差=[(220-224)²+(235-224)²+(210-224)²+(215-224)²+(240-224)²]÷5

=134

计算得到表2-2中数据的标准差为11.57。平均数反映的是数据的集中趋势,而方差则反映数据的离散程度。标准差可以用于判断平均数相同的两组数据中,哪组数据的稳定性更好。