数据分析方法及应用:基于SPSS和EXCEL环境
上QQ阅读APP看书,第一时间看更新

1.3 数据描述与数据分析简介

1.3.1 常见的数据描述方法

在数据分析中,人们获得的通常是来自一组样本或者多组样本的调查数据,或者一个数据序列,也有可能是多个数据序列。在对数据序列进行复杂的数据分析前,掌握每个数据序列的基本特征是非常必要的。

1.对数据序列的集中性描述

在数据分析过程中,人们通常需要了解数据序列集中于哪一个数据点周围。常见的描述量主要有均值、众数和中位数。

均值(Mean)即平均值,是对整个序列求和后再除以数据个数所得到的结果。

众数(Mode)即个数最多的数,它指在整个序列中,那个出现次数最多的数值。简单的说,就是一组数据中占比例最多的那个数。它是在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个)。

中位数(Median)即对数据序列排序后位于正中间的那个数值,它可将数值集合划分为相等的上下两部分。需要注意的是:如果原序列中数据的个数为偶数,则中位数为正中间两个数值的平均值。

2.对数据序列的离散性描述

在数据分析中,人们通常需要了解数据序列的波动情况,即数据的离散性。对于数据序列来讲,数据在均值附近的波动性大小是序列的重要属性之一,对于未来的统计分析有重要价值。衡量数据序列离散性的描述量主要有方差、标准差。

方差(Variance),即数据序列中n个离差(当前数值与均值的差)的平方和与数据个数n的比值。在概率论和数理统计中,方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。

标准差(Standard Deviation)是方差的平方根,也是描述数据离散性的量,中文环境中又常称均方差。

3.对数据序列分布形态的描述

对于待分析的数据序列,数据的分布形态对分析方法的选择具有重要影响。因此,在数据的描述中,了解数据序列的分布形态也非常重要。在统计学中,数据的分布形态主要有正态分布、均匀分布、指数分布、泊松分布等。另外,偏度和峰度是描述数据分布形态的重要指标。