第1章 数据的预处理
1.1 数据预处理内容介绍
在解决实际问题的过程中,经常需要对数据进行分析和处理,无论是通过调查和抽样得到的一手数据,还是通过其他渠道得到的二手数据,抑或是问题需求方提供的数据,都可能是不完整、不一致的,有可能存在缺失值、重复值及异常值等,我们无法直接对这些数据进行分析,如果直接利用它们进行分析,效果一般也不会理想甚至会出现错误的结论。为了提高数据分析的效果,一般在使用之前对数据进行预处理。
数据预处理没有标准的流程,通常会根据任务和数据集属性的不同而有所差别。本书会介绍数据的审核、筛选、去除唯一属性、缺失值处理、异常值查找及处理、数据标准化正则化等几个方面。
一、数据审核
数据审核的内容主要包括完整性、准确性、一致性、适用性和实效性等方面的内容。从不同渠道取得的统计数据,在审核内容和方法上也会有所不同。
对于原始数据一般从完整性和准确性两个方面去审核。完整性审核主要是查看需调查的单位或个体是否有遗漏,所调查的项目或指标是否填写齐全。准确性审核主要包括两个方面:一是检查数据资料是否真实地反映了客观实际情况;二是检查数据是否有误,计算是否正确等。审核数据准确性的方法主要有逻辑检查和计算检查。逻辑检查是审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾,此方法主要适用于对定性(品质)数据的审核。计算检查是检查调查表中的各项数据在计算结果和计算方法上有无错误,主要用于对定量(数值型)数据的审核。
对于二手资料,除了对其完整性和准确性进行审核,还应审核数据的适用性和时效性。二手数据可能来自多种渠道,有些数据是为特定目的通过专门调查而获得的,或者按照特定目的需要做了加工处理。使用前首先应该弄清数据的来源、数据的口径以及有关的背景资料,确定这些资料是否符合分析研究的需要,是否需要重新加工整理。此外,还要对数据的时效性进行审核,如果研究的问题时效性较强而取得的数据又过于滞后,则可能会失去研究的意义。
二、数据筛选
对审核过程中发现的错误应尽可能予以纠正。调查结束后,如果不能对数据中发现的错误予以纠正,或者有些数据不符合调查的要求而又无法弥补,就需要对数据进行筛选。数据筛选包括两方面的内容:一是将某些不符合要求的数据或有明显错误的数据予以剔除;二是将符合某种特定条件的数据筛选出来,对不符合特定条件的数据予以剔除。数据的筛选在市场调查、经济分析、管理决策中是十分重要的。
三、唯一属性
原始数据的唯一属性多是一些ID属性,这些属性并不能刻画样本自身的分布规律,是一种信息记录需要,可以删除这些属性而不会损失样本的信息。删除信息前,需要首先查看其他的数据信息,如果数据集中含有除ID属性不同,其他属性全部相同的信息记录,删除了ID属性,系统在进行数据处理时可能会将两条信息误认为是同一条信息,就不能删除ID属性。
四、缺失值
1. 数据缺失产生的原因
缺失值产生的原因是多种多样的,主要分为机械原因和人为原因。机械原因是机械本身导致的,如由于数据收集或保存的失败造成的数据缺失、数据存储的失败,存储器损坏等;人为原因是人的主观失误、历史局限或有意隐瞒造成的数据缺失。例如,收入、交通事故、市场调查等问题的研究中,因为被调查者拒绝回答,或者回答的问题是无效的,数据录入人员失误漏录数据等都有可能导致数据的缺失。
2. 缺失值的类型
缺失值的类型主要分为以下3种:
(1)完全随机缺失(Missing Completely at Random,MCAR),是指数据的缺失是完全随机的,不依赖于任何变量。
(2)随机缺失(Missing at Random,MAR),是指数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。
(3)完全非随机缺失(Missing Not at Random,MNAR),是指数据的缺失不仅与其他变量有关,还与自身有关。
3. 数据缺失的处理
在数据处理中,对缺失值的处理一般有三种方法:
(1)直接使用含有缺失值的特征,经常用于数据的信息量很大,缺失的信息又不太影响整体的结果。
(2)删除含有缺失值的特征,在这种方法中,如果任何一个变量含有缺失数据的话,就把相对应的记录从分析中剔除。如果缺失值所占比例比较小,这一方法就十分有效。然而,这种方法却有很大的局限性,由于它是以减少样本量来换取信息的完备,所以会造成资源的大量浪费以及大量隐藏在这些对象中的信息的丢失。在样本量较小的情况下,删除少量对象就足以严重影响到数据的客观性和结果的正确性。因此,当缺失数据所占比例较大,特别是当缺数据非随机分布时,这种方法可能会导致数据发生偏离,从而得出错误的结论。
(3)缺失值补全。常见的缺失值补全方法有:均值插补、同类均值插补、手动插补和样条插值法补齐等。
①均值插补
将变量的属性分为数值型和非数值型来分别进行处理。如果缺失值是数值型的,就根据该变量在其他所有对象的取值的平均值来填充该缺失的变量值;如果缺失值是非数值型的,则用该变量在其他所有对象的取值次数最多的值(众数)来补齐该缺失的变量值。均值替换法也是一种简便、快速的缺失数据处理方法。使用均值插补缺失数据,对该变量的均值估计不会产生影响。但这种方法是建立在完全随机缺失的假设之上的,而且会造成变量的方差和标准差变小。
②同类均值插补
先对样本进行分类,再以该类中样本的均值来插补缺失值。
③手动插补
插补处理是以主观估计值补充未知值,不一定完全符合客观事实。在许多情况下,根据对所在领域的理解,以及数据本身的特征,手动对缺失值进行插补。
④样条插值补齐
在已知的数据之间寻找估计值的过程即为插值。插值是离散函数逼近的重要方法,利用它可通过函数在有限个点处的取值状况,估算出函数在其他点处的近似值。
插值法首先认为数据(xi,yi)(i=0,1,2,...,n)满足一个函数f(x),即yi=f(xi),i=0,1,2,...n。缺失值问题变成根据函数f(x)已有的数据来计算函数f(x)在缺失数据点x处的函数值。插值法根据已有的函数值来构造一个简单的函数y(x),作为f(x)的近似表达式,然后用y(x)来计算新的点上的函数值作为f(x)的近似值。通常可以选多项式函数作为近似函数y(x),因为多项式具有各阶导数,求值也比较方便。常用的有拉格朗日(Lagrange)插值、牛顿(Newton)插值、厄米(Hermite)插值和样条(Spline)插值。线性插值在分段点上仅连续而不可导,三次厄米插值有连续的一阶导数,这样的光滑程度常不能满足物理问题的需要,样条函数可以同时解决这两个问题,使插值函数既是低阶分段函数,又是光滑的函数,并且只需在区间端点提供某些导数信息。因此样条插值在实际中应用较多。
回归替换法、多重替代法、极大似然估计和期望值最大化方法(EM)等方法也可用于缺失值数据的补齐,感兴趣的读者可以进一步查阅数据挖掘的相关书籍。
五、数据异常值(Outliers)的检测及处理
在实验中,由于测量产生误差导致个别数据出现异常,往往会导致数据的异常。异常数据的出现会掩盖实验数据的变化规律,以致研究对象变化规律异常,得出错误的结论。因此,正确分析并剔除异常值有助于提高数据分析的精度。统计学中已建立了多种准则判别异常值,各种准则的优劣程度及精确度不尽相同。
异常值即在数据集中存在不合理的值,又称离群点。通常可以采用画散点图的方式初步判断异常值,在数据量比较大,且异常值较少时,可以通过直接去掉该点的方式来进行,从集合角度看,异常值即离群点,如图1-1所示,红色点的取值明显和其他点取值规律相异常,在寻找数据规律时,可以去除该点。当然,如果选取样本的数据量本身就较小,或者问题研究中存在一些特殊情况需要特别关注的话,则应该根据具体问题进行深入细致的分析。详细解决请见【1】。
图1-1 离群点直观图
1. 拉依达准则(3σ-准则)
拉依达准则是最常用的一种判断准则。拉依达准则也称3σ-准则,根据正态分布的定义可知,距离平均值3σ之外的点概率P(|X-μ|>3σ)≤0.003,属于极小概率事件,一般情况下不会发生。当样本距离平均值大于3σ时,认定该样本为异常值。3σ-准则无须查表,用起来方便,当数据服从正态分布,或数据虽不服从正态分布,但样本量较大以及对数据精确度要求不高时,使用该法则判定均有效。
2. 箱线图分析法
箱线图是由一组数据的最大值、最小值、中位数、两个四分位数这5个值绘制而成的。中位数是一组数据排序后处于中间位置的变量值,四分位数是一组数据排序后处在数据25%位置和75%位置的两个分位数值。设第i个四分位数为Qi(i=1,2,3,4),定义四分位距:。大于Q1-1.5IQR并且小于Q3+1.5IQR的数据称为内限,在这两条线以外的数据为异常值可疑点,或称为离群值。在Q2±3IQR处画两条线段,称为外限。这两条线段以外的点称为极端点。如图1-2所示。
图1-2 箱线图示意
一方面,箱线图的绘制依靠实际数据,不需要事先假定数据服从特定的分布形式,没有对数据做任何限制性要求,只是真实直观地表现数据形状的本来面貌;另一方面,箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响,箱线图识别异常值的结果比较客观。
如果对异常值的判定精确程度要求很高,则可以选择罗马诺夫斯基(t-检验或称3S)准则、狄克松(Dixon)准则、肖维勒(Chauvenet)准则法、格拉布斯(Grubbs)准则等进一步进行识别。
异常值的处理与缺失值的处理方法类似,通常也分为直接使用带异常值信息的数据、删除带异常值的数据信息、将异常值数据按缺失处理、将异常值数据更换为通过插值等方式补充的新数据等。
六、数据的标准化变换
对于多元数据,当各变量的量纲和数量级不一致时,往往需要对数据进行变换处理,以消除量纲和数量级的限制,方便后续的统计分析。最常用的数据变换方法是标准化变换。标准化变换公式为:设p维向量的观测值矩阵为
标准化变换后的观测值矩阵为
其中:,,,i=1,2,...,n,j=1,2,...,p。这里是变量Xj的观测平均值,为变量Xj的观测值方差,sij为标准差。经过标准化变换以后,矩阵X各列的均值均为0,标准差均为1。