SPSS实战与统计思维
上QQ阅读APP看书,第一时间看更新

第1章 核心统计概念

统计学是处理复杂科学问题的艺术,概念是思维的基本单位,是思维的出发点和终点。统计概念为统计的基石,一些统计核心概念的掌握将会促进初学者对统计思维的理解与学习!本章重点讲解一些核心的统计概念,其他概念会在相关章节讲解。

1.1 总体与样本(population and sample)

1.1.1 总体

总体是指根据研究目的所确定的观察单位某项特征的集合。比如说我想研究安徽中医药大学所有在校生的平均体重,那根据此目的,我们研究的总体就是:安徽中医药大学所有在校生的体重数据的集合。但是需要注明一点:总体分为有限总体和无限总体,上面的例子就是有限总体,毕竟安徽中医药大学的学生还是有限的,然而科研过程中面临的大多数是无限的总体,如茫茫宇宙中星体的平均质量,如空气中某种物质的浓度,我们是无法取得其总体进行研究的。那我们面对无限总体怎么办呢?

中国古话云:“君子性非异也,善假于物也。”大意是聪明的人并不是本质上与一般人就不一样,只不过善于利用某种工具罢了。因此,我们为了研究无限总体,发明了抽样的方法,就像我们想知道一锅老母鸡汤的咸淡,不需要喝完所有的汤,只要摇匀,尝其一勺就可以了,这种思想就叫“抽样”。

1.1.2 样本

样本就是从总体中抽出的部分观察单位某项特征的集合。但是在抽样过程中必须遵守随机化的原则。我们通常都是通过研究样本去推断研究总体的属性与特征。

生活中处处存在抽样的思想,如“一叶知秋”“豹窥一斑”、3·15质量抽检报告等。

1.2 参数与统计量(parameter and statistics)

参数是用于描述总体特征的指标,如总体均数(μ),总体标准差(σ)、总体率(π)、总体相关系数(ρ)。

统计量是用于描述样本特征的指标,如样本均数(),样本标准差(s)、样本率(p)、样本相关系数(r)。

一般而言,我们进行科学研究直接获取到的仅是样本的统计量而已,可是我们的研究目的却是想获知总体的属性特征,即总体参数。统计学存在的核心价值就在于可以通过描述样本的统计量去推断描述总体的参数,这是通过偶然去发现必然、通过一般去发现普遍,这是以小见大的过程。参数与统计量的关系如图1-1所示。

图1-1 统计四概念关系

1.3 概率与频率(probability and frequency)

1.3.1 概率

概率(P)是用于反映某一事物发生可能性大小的一种量度。一般用大写的斜体P表示。

我们根据事物发生概率的大小,把事件分为3类:P=1为必然事件,发生率为100%;P=0为不可能事件,发生率为0;0<P<1为偶然事件,在事件未进行之前,其既可能发生,也可能不发生。其中P≤0.05或P≤0.01的事件为小概率事件,其实际应用意义为在一次试验、抽样或研究过程中不可能发生。

小概率事件非常重要,是统计推断的基础,松哥举个例子:统计起源于赌博游戏,咱们虚构一个游戏,在一个不透明的箱子中有100个乒乓球,其中5个是黄色的,95个是白色的,现在在一个100名学生的班级中,请大家每人上来交1元钱,然后随机抽取一个球,如果抽中黄球给10元,抽不中就谢谢参与,请问你是抽呢,还是不抽呢?呵呵!

基于统计的判断,你是不该抽的,为什么呢?因为黄球所占的比例为0.05,是小概率事件,而小概率事件的应用意义为在一次抽样过程中发生的概率为0,因此,你基本不可能抽中,然而小概率事件在一次抽样过程中发生概率为0,但在群体事件中可以发生,本例发生概率为5%,班上100名同学,理论上有5名同学可以抽到。算一下,每人1元,共收到100元,减去5名抽中的奖金50元,松哥还稳赚50元呢。

1.3.2 频率

频率(f)是指我们进行了N次试验,其中一个事件出现的次数m与总的试验次数N的比值。

问题是:统计是基于概率说话的,我们到底如何才能够得到某一事件发生的概率呢,比如说谁能够告诉我一支半截粉笔从讲台上掉下摔断的概率P是多大呢?我们至今的科学发展也没有办法通过公式去计算该值。那我们是怎么做的呢?有句话叫作“有些事情越想越烦,做起来却极其简单”。我们只需要拿两盒同样的粉笔进行重复摔就可以了,如果总共100支粉笔,断了98支,那断的频率就等于f=98/100=0.98。而统计学上证实,当某事件发生次数较多时,频率就会收敛于概率,意即fP。因此,其实我们就是通过频率去估计概率的。

你可以这样理解:频率是针对过去的,概率是针对未来的。频率是针对已经发生的样本的,概率是针对尚不知晓的总体的,频率就像样本统计量,概率更像总体参数,而我们是用频率去估计概率的。

1.4 误差(error)

误差是观察值与真值之差,即我们通过一次试验得到的结果与事件真实结果之间的差值。误差根据其产生的原因分为四种。

1. 系统误差(systematic error)

系统误差是因为试剂未校正或者仪器没有调零等因素造成的研究结果倾向性的增大或减小。如我们路过药房,门口放置一个体重计,请问我们在称自己的体重之前,首先要干的第一件事情是什么呢?有同学说先把手上的包放掉,有同学说把鞋子脱掉,还有同学说我看看是不是要收费的再说,呵呵!但从统计学角度,我们应该看看体重计上的指针是不是对准零,如果体重计本身就有5kg底重,那我们所有的同学去称,都将会重5kg,即发生倾向性的偏大。系统误差其特点为:倾向性的增大或减小,可以避免,如果我们进行调零,系统误差就可以避免。

2. 随机误差(random error)

随机误差是由各种偶然因素造成的观察值与真值之差。比如某班级所有同学用同一把尺子测量松哥的身高,结果发现我的身高值是不一样的。随机误差的特点为:不可以避免,但可以减少。统计学有一定律叫作“测不准定律”,不管你怎么测,就是测不准,那对于重要的指标我们怎么办呢?正如网上流行的一句话“重要的事情说三遍”,那么我们对重要的指标,就多测几遍喽!

3. 抽样误差(sampling error)

抽样误差是因为抽样造成的样本统计量与总体参数之间的差异。有同学肯定会说,刚才那一勺老母鸡汤的咸淡应该和锅里汤的咸淡是完全一样的啊!是的,刚才的例子是让你明白抽样的原理,而我们科学研究和喝老母鸡汤是不一样的,因为汤里的氯化钠是均匀分布的,而我们科学研究的目标事件是不均匀分布的。比如某个班级120名同学的近视眼患病率为50%,松哥按照随机化原则随机抽取50名同学,这50名同学的近视眼患病率理论不会等于50%,因为近视眼同学在班级中的分布是不均匀的,能理解吧!因此抽样误差的特点为:不可以避免,但可以减少,我们可以通过增大样本量进行减少,可以看图1-2帮助理解哦。

图1-2 均匀分布与不均匀分布

4. 过失误差(gross error)

过失误差是由于观察过程中的不仔细造成的错误判断或记录。过失误差可以通过仔细核对避免。

那么统计学的存在,主要是解决哪种误差呢?我们通过统计设计减少系统误差,通过统计学检验去排除抽样误差。测量误差不可避免,可以通过培训降低;过失误差可以通过质量控制消除。

1.5 同质与变异(homogeneity and variation)

1.5.1 同质

同质是指观察单位所受的影响因素相同。而我们科研的观察单位所受的影响因素只可能相对的相同,不可能绝对的相同,因此,同质是相对的。我们科研所确定的总体或者样本,在某些因素上必须是同质的,只有这样我们才能将其作为一个群体进行研究。

1.5.2 变异

变异是指观察单位在同质基础上的个体差异。很多哲言或谚语都在说明变异的存在,如天底下没有两片完全一样的树叶;一个人不可能两次踏入同一条河流;刚才说话的我已经不是现在说话的我了;天下唯一不变的就是变化。因此,变异是绝对的。

这一对概念对研究统计的意义:如果没有同质,就没有我们研究的总体或者样本。因为如果不同质,我们是不可能把他们放在一起进行研究的。如果没有变异,就根本没有统计学产生的必要,因为如果没有变异,我们拿1种药物治疗某病的1个病人,如果有效,该药对所有患该病的病人都应该有效,而那是不可能的。因为人与人之间的变异性是绝对存在的,对你有效,对我却未必有效,而统计学就是在群体的水平上去发现事物背后的本质与规律的。

1.6 随机化原则(random principle)

随机化原则是指我们在选择受试对象、对受试对象分组以及对受试对象施加不同的干预措施时,受试对象被抽到的概率、被随机分到各组的概率以及接受不同干预措施的概率是相等的。统计学中随机化的具体体现包括随机化抽样、随机化分组和随机化顺序。三种随机化的模式见图1-3。

图1-3 三种随机化模式

A:随机化抽样;B:随机化分组;C:随机化顺序

随机化抽样是指我们从研究总体中抽取研究样本时,总体中的任何一个个体被抽到作为样本进行研究的概率相等。

随机化分组是指我们获取研究样本后,样本中的每个受试对象具有同等的机会被分配到各个研究组中去。

随机化顺序是指当我们进行交叉试验时,随机化分组后的研究组接受不同干预措施的顺序是随机的。

1.7 因素与水平(factor and level)

1.7.1 因素

因素是可能对应变量有影响的变量,而分析的目的就是比较不同水平对应变量的影响是否相同。如性别可能对性格有影响,性别此时就是因素;而性格可能对某种疾病有影响,此时性格就是因素了。某个变量到底是不是研究因素,是由研究目的确定的!

1.7.2 水平

因素的不同取值等级称作水平,例如,因素性别有男、女两个水平,血型有A、B、O和AB型4个水平。水平往往是统计学分组的依据。

1.8 变量(variable)

变量为观察单位的某项特征,如人的身高、体重、性别、年龄、血型、营养程度等,通俗讲就是我们研究的指标。根据变量特征的属性,变量可以分为计量变量、等级变量和计数变量。

1.8.1 计量变量

计量变量时通过定量的方法检测出来的指标,通常以阿拉伯数字呈现,具有单位,并可以定量地比较,如身高(cm)、体重(kg)、血压(mmHg)、脉搏(次/分)、工资、年龄等。计量变量支持加减法(+/-)运算。计量变量很多书上又称为数值变量,连续性变量,定量变量。

1.8.2 计数变量

计数变量反映的是互不相容的属性和类别,反映的是一种我中无你、你中无我的关系。常通过计数的方式获得,如血型(A、B、O和AB)、性别(男、女)、生肖属相、民族等。计数变量之间支持不等号(≠)。计数变量又称为分类变量,无序分类变量。

1.8.3 等级变量

等级变量具备计数变量的性质,同时又具有半定量比较的性质,如病情(轻、中、重)、职称(初级、中级、高级)、学历(文盲、小学、中学、本科及以上)、福利待遇(好、中、差)。这类变量各水平之间互不相容,但又有级别上的轻重关系。等级变量支持大于号和小于号(>/<)。

1.8.4 变量之间相互转换

同一受试对象身上可以检测出上述的三种变量,三种变量反映受试对象信息的能力顺序依次为计量变量、等级变量和计数变量。为了方便大家记忆,我们把三种变量依次称为老大、老二和老三。变量之间可以相互转化,但只能从高级别变量向低级别变量转化。意思是计量可以转为等级和计数,等级可以转为计数,但不可以逆转。

正如某医院的院长是老大、科室主任是老二、科里的医生是老三。哪一天这位院长不想干了,他可以到科室当主任、也可以当科员,但是科员不是想当主任、想当院长就能当的。

从专业上举个例子,如某人收缩压180mmHg(计量变量),可以转化为等级变量(高血压、正常、低血压),也可以转化为计数变量(正常、异常),但是如果我只告诉你,松哥的血压不正常,你是无法知道我是高是低,以及具体血压数值的。这点也给我们一个启示,科研过程中尽量去获取计量资料,因为其信息多,而且可以转化。