SPSS 19.0统计分析综合案例详解
上QQ阅读APP看书,第一时间看更新

1.2 描述性统计分析

1.2.1 频数分析

频率分布表是在描述性统计中最常用的方法之一,SPSS中的Frequencies过程就是专门为产生频数分布表而设计的。SPSS 的频数分析过程可以对单变量的多数类型的数据进行分析,也可以产生多个统计量和统计图形。下面主要介绍其功能及相关操作。

建立或打开了数据文件后,即可进行频数分析。在数据编辑窗口的主菜单栏中选择Analyze→Descriptive Statistics→Frequencies命令,打开如图1-14所示的Frequencies对话框。

图1-14 Frequencies对话框

如图1-14所示,在Frequencies对话框左侧的源变量框中选择一个或多个变量,单击按钮使其进入右侧的Variable(s)列表框中作为频数分析的变量。

在频数分析对话框的下方有一个Display frequency tables复选框,选中该复选框将显示频数分布表。系统默认选中此项。

1.Statistics按钮

在如图1-14所示的对话框中单击Statistics按钮,打开如图1-15所示的Frequencies: Statistics对话框。

图1-15 Frequencies: Statistics对话框

该对话框主要用于确定将要在输出结果中出现的统计量,具体的选项及其功能如下。

1) Percentile Values选项组

选择该选项组中的选项,表示输出百分位数:Quartiles复选框表示输出四分位数,即显示25%、50%、75%的百分位数;Cut points复选框表示将数据平均分为所设定的相等等份,在文本框中所设置的数值必须是2~100间的整数;Percentile复选框用于显示由用户自定义的百分位数,在文本框中输入数值的范围在0~100之间。输入数值后单击Add按钮。也可以重复此操作过程,输入多个百分位数。如果要删除已输入的百分位数,选中要删除的数,单击Remove按钮即可。如果要修改已输入的百分位数,选中该数,在文本框中输入新数,单击 Change 按钮即可。

2) Dispersion(偏离度)选项组

选择此选项组中的各复选框表示所需计算的统计量如下:Std.deviation 为标准差;Minimum为最小值;Variance 为方差;Maximum 为最大值;Range 为范围,即最大值与最小值之差;S.E.mean 为均值的标准误差。

3) Central Tendency(中心趋势)选项组

此选项组中各统计量代表含义如下:Mean 为算术平均数;Median 为中位数;Mode为众数;Sum为算术和。

4) Distribution(分布参数)选项组

此选项组给出计算描述分布的统计量。

Skewness:显示偏度和偏度的标准误差。如果样本符合正态分布,那么此值为0。左偏时为正数,样本的分布具有一个较长的右尾;右偏时为负数,样本的分布具有一个较长的左尾。如果此值大于1,那么样本肯定不符合正态分布。

Kurtosis:显示峰度和峰度的标准误差。标准正态分布的Kurtosis值为0,如果Kurtosis大于0,变量值分布要比标准正态峰高。如果 Kurtosis 小于0,变量值分布要比标准正态峰低。

5) Values are group midpoints复选框

选中该复选框,在计算百分位数值和中位数时,如果数据已经分组,就用已经分组的数据计算中位数和百分位数。

设置完毕后,单击Continue按钮,确认操作并返回到Frequencies对话框。

2.Charts按钮

在如图1-14所示的对话框中单击Charts按钮,打开如图1-16所示的Frequencies: Charts(频数分析:图形)对话框。在该对话框中可以设置图形的类型及坐标轴等。

图1-16 Frequencies: Charts对话框

在Frequencies: Charts对话框中显示两个选项组,分别是图形类型和图形取值。

1) Chart Type(图形类型)选项组

该选项组给出了关于图形输出的方式,用户可以有4种选择,即:None 单选按钮是系统默认状态,表示不输出任何图形;Bar charts单选按钮表示输出条形图,各条高度代表变量各分类的频数;Pie charts单选按钮表示输出显示饼图,图中各块代表变量各分类的频数;Histograms单选按钮表示输出显示直方图,此图仅适用于区间型数值变量。选择了Histograms 选项后下方的With normal curve复选框即被激活,选择该项时表示在显示的直方图中添加正态曲线图,用于推断数据是否近似服从正态分布。

2) Chart Values(图形取值)选项组

该选项组只有选择了条形图或圆图选项才有效,在该选项组中可以选择SPSS图形取值的计算方式,有两个单选按钮,分别为:Frequencies单选按钮,系统默认此选项,选择该项表示图形中的度量用相应变量的个案频数表示,即纵轴表示频数;Percentages单选按钮,选择该项表示图形中的度量用相应变量的个案占个案总数的百分比表示,即纵轴表示百分比。

设置完毕后,单击Continue按钮确认选择并返回到Frequencies对话框。

3. Format按钮

在如图1-14所示的Frequencies对话框中单击Format按钮,打开如图1-17所示的Frequencies:Format对话框。

图1-17 Frequencies: Format对话框

在该对话框中可以设置输出的频数分析表的格式。对话框中各项的含义如下。

1) Order by选项组

Order by 选项组中的选项用于设置频数分析表中数据的排列顺序,包括4个单选按钮。Ascending values 选项是系统默认项,选择该项表示按变量升序排列;选择 Descending values选项,按变量降序排列;选择Ascending counts选项,按变量各种取值出现的频数的升序排列;选择Descending counts选项,按变量各种取值出现的频数的降序排列。

但是,如果设置了直方图或百分位数输出,那么不管用户如何设置,频数表都将按变量值升序排列。

2) Multiple Variables选项组

Multiple Variables选项组用于进行多变量频数分析时设置表格的显示方式,包括两个单选按钮:Compare variables是系统默认选项,选择该项表示不同变量的统计量显示在同一张列表中;选择Organize output by variable选项表示不同变量的统计量分别显示在不同的表格中。

3) Suppress tables with more than n categories(控制频数表)复选框

此复选框用来控制输出的分类数量。选中该复选框时下面的 Maximun number of catagrories(分类变量的最大值)文本框被激活,输入最大的显示分类变量,即输出的组数不能大于对话框中输入的数值,系统默认值为10。

设置完毕后,单击Continue按钮确认选择并返回到Frequencies对话框。

所有设置完成后,单击OK按钮即可进行频数分析。Reset按钮用于重新设置选择项,Cancel按钮用于取消所设置的选项并关闭对话框,单击Help按钮可打开相关的帮助文档,Paste按钮用于将所设定的统计过程及选择项对应的程序粘贴到Syntax程序窗口中。

1.2.2 描述性分析

描述性统计量是研究随机变量变化综合特征(参数)的重要工具,它们集中描述了变量变化的特征,如果仅需要了解统计量的值,则使用Descriptive过程计算更加简捷扼要。

SPSS的描述性分析过程的功能和1.2.1节中介绍的Frequencies过程基本类似,主要以计算数值型单变量的统计量为主,但是没有图形功能。

但是,Descriptive过程还有个特殊功能,那就是可将原始数据转换成标准常态评分值,并以变量的形式存入数据库中,以便后续分析时使用。

在数据编辑窗口的主菜单栏中选择Analyze→Descriptive Statistics→Descriptives命令,打开如图1-18所示的Descriptives对话框。

图1-18 Descriptives对话框

在左侧的源变量列表框中选择一个或多个变量作为待分析的变量,单击按钮移入Variable(s)列表框中。

在对话框下方有一个Save standardized values as variables复选框。如果选中该复选框,表示对Variable(s)列表框中选中的变量进行标准化产生相应的Z分值,并且作为新变量保存在数据窗口中,新变量的变量名为“Z+原变量名”。

单击右下侧的Options按钮,打开如图1-19所示的Descriptive: Options对话框,在该对话框中可以指定输出哪些基本统计量以及输出结果显示的顺序。

图1-19 Descriptive:Options对话框

基本统计量的功能在本章的前部分已经讲过,读者可参照前文进行学习,此处不再赘述。系统默认的分析变量包括:Mean(均值)、Std.deviation(标准差)、Minimum(最小值)和Maximum(最大值)。

与前面所讲的不同就是在Descriptive: Options对话框中增加了Display Order选项组,用于对输出顺序进行设置。当Variable(s)列表框中有多个变量时,在Display Order选项组中确定其输出顺序:选中 Variable list 单选按钮表示按 Variable(s)列表框中的排列顺序进行输出;选中Alphabetic单选按钮表示按各变量的首字母顺序进行输出;选中Ascending means单选按钮表示按均值的升序排列;选中Descending means单选按钮表示按均值的降序排列。

设置完毕后,单击Continue按钮确认设置并返回到Descriptive对话框。单击OK按钮执行统计量的描述性分析。

1.2.3 探索性分析

探索性分析可以对变量进行更为深入详尽的统计分析,主要用于对数据的性质、分布特点等完全不了解时,检验数据是否有错误,获得数据的基本特征,及对数据规律做初步的观察。

在常用描述性统计指标的基础上,探索性分析(Explore)增加了有关数据详细分布特征的文字与图形描述,如茎叶图、箱形图等,显得更加详细、完整,还可以为以方差齐性为目的的变量交换提供线索,有助于用户制定更进一步分析的方案。

和前面所讲分析过程类似,在主菜单栏中选择Analyze→Descriptive Stastistics→Explore命令即可打开Explore对话框,如图1-20所示。

图1-20 Explore对话框

打开数据文件后,就需要选择分析变量。分析变量,也称解释变量,必须是数值型变量。从Explore对话框左侧的源变量列表框中选择一个或多个变量进入右侧的Dependent 列表框作为因变量,此时单击OK按钮可以获得分析变量的一系列基本统计量和图形。

选择分析变量后,如果需要分组,则可选择分组变量,分组变量实际就是因变量。Factor List列表框中的变量即为分组变量,从左侧的源变量列表框中进行选择,可以是字符型变量,对因变量的分析将按该变量的观测值进行分组分析。可以有多个分组变量,这时会按多个变量的交叉组合进行分组。

Label Cases即标签变量,该列表框中的变量作为标识符,在输出诸如异常值时,用该变量进行标识。如果该项缺选,系统自动寻找id变量作为标签变量,一般只允许有一个标识符。

在Explore对话框的左下方有Display选项组,该选项组中有3个选项,各选项的意义如下:选中Both单选按钮后,Statistics按钮和Plots按钮都加亮,表示可以同时输出基本统计量和图形;选中Statistics单选按钮,则只有Statist按钮加亮,表示只输出基本统计量;选中Plots单选按钮后,则只有Plots按钮加亮,表示只输出图形。

下面详细介绍Statistics、Plots和Options 3个按钮的功能。

1. Statistics按钮

在Display选项组中选中Both或Statist单选按钮时,Statistics按钮被激活,单击该按钮,出现如图1-21所示的Explore: Statistics对话框,在该对话框中可以选择要输出的统计量。

图1-21 Explore: Statistics对话框

Descriptives选项为系统默认选项,要求输出基本的描述性统计量,包括均值、中位数、5%的调整均值、标准误差、极差、最大值、最小值、范围、4分位数、峰度和偏度及其标准误差等。选择该项时,需要在下方的Confidence Intervals for mean(均值的置信区间)文本框中输入1%~99%间的任意值,根据该值算出置信区间的上下限,系统默认值为95%。

选中M-estimators复选框,表示进行M-估计,可以输出4种稳健极大似然估计量。对于长尾对称分布或数据有极端异常值时,利用稳健估计量估计总体均值要比样本均值或中位数有更好的稳定性。根据样本值的权重不同,可以得到不同的估计量,主要有4种,包括稳健估计量(Huber)、非降稳健估计量(Hample)、波估计量(Andrew)、复权重估计量(Turkey)。

Outliers复选框,用于输出数据的离群点,将输出5个最大值和5个最小值,并在输出窗口中加以标明。

Percentiles复选框用于输出百分数,包括5%、10%、25%、30%、75%、90%和95%的百分位数。

2. Plots按钮

在如图1-20所示对话框的Display选项组中选中输出结果为Both或Plots单选按钮时,Plots按钮被激活,单击该按钮,出现如图1-22所示的Explore: Plots对话框。

图1-22 Explore: Plots对话框

在该对话框中可以设置要输出的统计图形及其参数,包括3个主要选项组。

Boxplots(箱图)选项组用于设置所显示的箱图的参数的选择项。只有在主对话框中指定了不止一个因变量时,Boxplots选项组才有效。其中,Factor levels together选项表示不同分组的同一因变量显示在同一个箱图中,用于比较同一变量在分组变量值的不同水平上的值的分布情况;Dependents together 选项表示在同一组的不同因变量显示在一个箱图中,用于比较同一分组水平下的不同变量的值的分布;None选项表示不显示任何箱图。

Descriptive 选项组用于设置图形描述选项,可以指定因变量值的图形,有两个复选框:Stem-and-leaf是系统默认的选项,选择该项表示生成茎叶图;选中Histogram复选框表示生成直方图。

对于正态分布的检验,有如下选项及含义。

Normality plots with tests复选框表示输出正态概率和离散正态概率图,同时输出K-S统计量中的Liliefors 显著水平检验,如果观测数目不超过20,将用 W-S 统计量代替 K-S统计量。

Spread vs. Level with Levene Test选项组只有指定分组变量的情况下才有效,用于数据转换的散布对水平图的设置。对于所有的散布水平图,显示数据转换后的回归曲线的斜率和方差齐性的Levene稳健检验。其中,选中None单选按钮表示不输出分布-水平图;选中Power estimation单选按钮,表示对每一组数据产生一个中位数范围的自然对数与四分位范围的自然对数的散点图,同时在满足每组中数据方差相等的条件下对数据进行幂变换的估计;选中Transformed Power单选按钮,表示根据用户在Power文本框中指定的变换对原始数据进行变换,可以选择使用的变换有 Natural log(自然对数)、1/Square root(-1/2次方)、Reciprocal(-1次方)、Square root(1/2次方)、Square(平方)、Cube(三次方);选中 Untransformed 单选按钮,表示不对数据进行转换,产生原始数据的散布图。

3. Options按钮

在如图1-20所示的Explore对话框中单击右下角的Options按钮就会打开如图1-23所示的Explore: Options对话框。

图1-23 Explore: Options对话框

在该对话框中只有Missing Values(缺失值)选项组,用于设置对缺失值的处置方式。

Exclude cases listwies单选按钮是默认选项,选中该项表示对所有的分析中,剔除因变量或分组变量中带有缺失值的观测量。

Exclude cases pairwise选项表示在分析过程中剔除当前分析中的缺失值个案。

Report values选项表示将分组变量中的缺失值单独分为一组,输出频数时将标出缺失组。

1.2.4 列联表分析

在考虑变量之间的关系时,我们通常分析变量之间的相关程度。对于数值型变量,通常计算相关系数和进行回归分析,而对于定类型变量则通常采用列联表过程进行分析。列联表给出了多个变量在不同取值下的数据分布,从而分析变量之间的相互关系。

在主菜单栏中选择Analyze→Descriptive Statistics→Crosstabs命令,即可打开Crosstabs对话框,如图1-24所示。

图1-24 Crosstabs对话框

在该对话框的右侧为Row(s)列表框,该框中为分布表中的列变量,列变量必须是数值型或字符型等分类变量。

在Row(s)文本框下方为Column(s)列表框,该框中的变量作为分布表中的行变量,和Row(s)文本框的要求一样,必须是数值型或字符型等分类变量。

Layer 1 of 1选项组中的变量作为控制变量,将决定频数分布表中的层。可以有多个控制变量,如果要增加一个新的控制变量,可单击Next按钮,然后再选入一个变量;如果要修改已经选入的变量,单击Previous按钮即可。

在Crosstabs对话框的下方有两个复选框:Display clustered bar charts复选框表示显示每一组中各变量的分类条形图;Suppress tables复选框表示只输出统计量,不输出多维列联表。

单击Exact按钮即可打开如图1-25所示的Exact Tests对话框。该对话框用于定义确切概率的计算。Asymptotic only单选按钮表示只计算近似概率;Monte Carlo单选按钮表示用Monte Carlo法计算精确概率,可自行设置置信度和抽样次数;Exact选项表示在给定时间内计算精确概率的值,如果超出给定时间则停止计算。

图1-25 Exact Tests对话框

下面就Statistics、Cells Display、Format 3个按钮进行简单介绍。

1. Statistics按钮

在如图1-24所示的 Crosstabs 对话框中单击 Statistics 按钮即可打开如图1-26所示的Crosstabs: Statistics对话框,该对话框用于设置列联表输出的内容和形式。

图1-26 Crosstabs: Statistics对话框

1) Chi-square复选框

该框表示选择是否进行卡方检验。通常情况下显示皮尔逊卡方检验(Pearson chi-square test)、似然比卡方检验(Likehood rationchi-square test)、线性相关卡方检验(Linear-by-linear association chi-squaretest)、费歇精确检验(Fisher's exactly test)、耶茨校正卡方检验(Yete's corrected chi-square test)的检验结果。

这几种检验的作用是不同的。皮尔逊卡方检验常用在二维表中对行变量和列变量进行独立性假设检验,似然比卡方检验可以用于对数线形模型的检验。费歇精确检验和耶茨校正卡方检验也存在差别,当样本数小于40或一个单元格中的期望频数小于3时,使用费歇精确检验;当样本数大于或等于40,至少有一个单元格中的期望频数小于3时,使用费歇精确检验;当样本数大于或等于40,至少有一个单元格中的期望频数大于 3时,使用耶茨校正卡方检验。

2) Correlations复选框

选中该框将进行相关系数的检验,有两项结果显示:Pearson 相关系数(r)用来检验两变量的线性相关程度;Spearman 相关系数用来检验秩序之间的关联程度。其值都在-1~1之间,-1表示完全负相关,1表示完全正相关,0意味着不相关。

3) Nominal选项组

该选项组适用于定义分类变量的相关性指标,共有4个复选框。

(1) Contingency coefficient复选框。该复选框表示基于卡方检验基础上对相关性的检验。其数值在0~1之间,但不可能达到1,其值为0时表示行和列变量之间不相关,其值越靠近1,表明变量间相关性越强。其值的大小与表中行列数目有关。

(2) Phi and Cramer's V复选框。该复选框也是用来刻画相关性的,Phi系数是基于卡方检验基础上。

(3) Lambda复选框。当用自变量预测因变量时,Lambda系数反映这种预测降低错误的比率。Lambda系数为1时,表明自变量完全预测因变量;Lambda系数为0时,预测完全没有效果。

(4) Uncertainty coefficient 复选框。选中该框将显示不确定系数,表示用一个变量来预测其他变量时降低错误的比率。例如,不确定系数为83%时,已知一个变量的知识在预测其他变量时,可以减少 83%的错误。不确定系数有对称和不对称两种。

4) Ordinal选项组

该选项组适用于有序变量,用于定义有序变量的相关性系数,共有4个复选框。

(1) Gamma复选框。Gamma系数反映两个有序变量间的对称相关性,其值在-1~1之间。当Gamma系数的绝对值靠近1时,两个变量有很强的关联;当 Gamma 系数的值靠近0时,两个变量有很小的相关性或没有相关性。在二维列联表中,显示0阶Gamma值,在高维列联表中,显示条件Gamma值。

(2) Somers' d复选框。该检验是Gamma检验的非对称推广,二者不同处仅在于根据自变量配对的成对数据的含量。和Gamma检验一样,该值在-1~1之间。当其绝对值靠近1时,两个变量有很强的关联;当值靠近0时,两个变量有很小或没有相关性。

(3) Kendall's tau-b 复选框。该复选框是对有序变量或秩变量相关性的非参数检验,把有相同值的观测量也列入计算过程中。该系数的符号表明相关性的方向,绝对值表明相关性的大小,绝对值越大,相关性越大,绝对值越小,相关性越小。取值范围在-1~1之间,取1或-1只有在正方形列联表中才有可能。

(4) Kendall's tau-c复选框。该检验和Kendall's tau-b检验的不同点在于,采用该检验时将相同的观测值从计算中剔除。取值范围在-1~1之间,符号表明相关性的方向,绝对值表明相关性的大小,绝对值越大,相关性越大,绝对值越小,相关性越小。取1或-1只有在正方形列联表中才有可能。

5) Nominal by Interval选项组

该选项组只有一个复选框Eta,用于检验相关性,其值在0~1之间,值为0表明没有相关性,值靠近1表明有很强的相关性。该检验适用于因变量是区间变量(如收入),而自变量是取有限分类值(如性别)的相关性分析。有两个 Eta 值可用,一个适用于行变量是区间变量,另一个适用于列变量是区间变量。

6) Kappa复选框

Cohen's Kappa 系数用来检验内部一致性,即两个评估人对同一对象的评估是否具有一致性,其值在0~1之间,1表明两种评估完全一致,0说明两种评估没有共同点。仅适用于两个变量使用同一个分类变量且分类值一样的情况。

7) Risk复选框

该复选框用于检验某事件发生和某因子之间的关系,如可以检验肺癌和吸烟的关系。

8) McNemar复选框

选中该复选框将进行两个相关的二值变量的非参数检验,例如用开方分布检验响应的变化。该检验只有在行列数相等时才能用。在“实验前和实验后”的因素设计中,该检验对探测由于实验干扰而产生反应的变化十分有效。一般地,显著水平小于0.03即被认为十分有效。一般地,显著水平小于0.03即被认为是显著的。

9) Cochran's and Mantel-Haenszel statistics复选框

选中该复选框将进行一个二值因素变量和一个二值相应变量的独立性检验和齐次性检验,在Test common odds ratio equals文本框中只能输入正数,系统默认值为1。

设置完毕后单击Continue按钮确认选择并返回到Crosstabs对话框。

2. Cells Display按钮

在如图1-24所示的 Crosstabs 对话框中单击 Cells Display 按钮,打开如图1-27所示的Crosstabs: Cell Display对话框。在该对话框中可以选择在列联表中输出的统计量,包括观测量数、百分比和残差。

图1-27 Crosstabs: Cell Display对话框

1) Counts(记数)选项组

该选项组用于定义输出频数,包括实际频数(Observed)和期望频数(Expected)两种。选中Observed复选框,表示输出观测值的实际数量;选中Expected复选框,如果行、列变量在统计上是独立的或不相关的,将在单元格中输出期望的观测值的数量。

2) Percentages(百分比)选项组

该选项组用于定义需要计算的百分数,包括行百分数(Row)、列百分数(Column)和总体百分数(Total)。

Row 复选框表示输出单元格中观测量的数目占整行全部观测量数目的百分比;Column 复选框表示输出单元格中观测量的数目占整列全部观测量数目的百分比;Total复选框表示输出单元格中观测量的数目占全部观测量数目的百分比。

3) Residual(残差)选项组

(1) Unstandardized 复选框。选中该复选框,表示计算非标准化残差。残差是观察值和期望值之差,由此可见,正的残差意味着行、列变量相互独立时,单元格中的观测值比应该出现的值要大。

(2) Standardized 复选框。选中该复选框表示计算标准化残差,即上述的残差除以标准差,其均值等于0,标准差等于1。

(3) Adjusted standardized复选框。选中该复选框,表示计算调整后残差。

4) Noninteger Weights 选项组

当频数因为加权而变成小数时,选择该选项对频数进行取整。主要包括了5种取整方法:Round cell counts单选按钮表示对频数进行四舍五入取整;Round case weights单选按钮表示对加权样本在使用前进行四舍五入取整;Truncate cell counts单选按钮表示对频数进行舍位取整;Truncate case weights单选按钮表示对加权样本在使用前进行舍位取整;No adjustments单选按钮表示不进行调整。

设置完毕后单击Continue按钮确认选择并返回到Crosstabs对话框。

3. Format按钮

在如图1-24所示的Crosstabs对话框中单击Format按钮,即可打开Crosstabs: Table Format对话框,如图1-28所示。

图1-28 Crosstabs: Table Format对话框

在Row Order选项组中可以决定各行的排列顺序:Ascending单选按钮表示将各行变量值按升序排列;Descending单选按钮表示将各行变量值按降序排列。

设置完毕后单击Continue按钮确认选择并返回到Crosstabs对话框。结束所有相关设置后,单击OK按钮执行列联表分析。