1.2 多元数据的尺度水平
作为变量值的数据,根据它描述变量属性的精细程度可以从低到高分为四类:名义数据(nominal data)、顺序数据(ordinal data)、等距数据(interval data)、比例数据(ratio data),有时直接称这四类数据为四个尺度水平(scale level)。
(1)名义数据也称为分类/命名数据,是指用相同的数值来表示同类事物、不同的数值表示不同类别事物。例如,表1.1(a)中的性别变量,“0”表示男生,“1”表示女生。又如,对汽车颜色的变量,“1”表示白色,“2”表示红色,“3”表示黄色,“4”表示黑色。这些数据没有大小、优劣之分,只能区分性别、颜色等类别。类似这样的变量在社会调查中颇为常见。由于名义数据只是按照观察对象的某种属性进行分类或分组,它不能比较大小,也不参与四则运算,统计分析中常用于各类别的次数计算。
(2)顺序数据也称为定序数据,是按观察对象某种属性的强弱或多少将各个对象排序后获得的数据。例如,产品质量的等级分数、用数字表示消费者对某种食品的喜好程度、比赛成绩的名次等都属于顺序数据。顺序数据也可以分类,但最主要的功能是确定这些属性类别的强弱程度或数量多少。显然顺序数据要比名义数据精确,但它无法确定类别之间差异的大小。例如,在一次数学考试中第一名是张同学,第二名是李同学,第三名是王同学。尽管三名学生的名次只差一位,但我们无法确定张、李两同学的得分之差和李、王同学的得分差距是否相同,它们可能相等,也可能差异很大,故顺序数据不能进行加减乘除的运算。
(3)等距数据又称为区间数据,是表示观察对象属性的数量特征,是对属性类别或次序之间差距的测量。例如,某地室外气温观察:早上6时的气温为25℃,中午12时的气温为32℃,下午18时的气温为28℃,午夜24时的气温为21℃。那么该地区6时到12时与18时到24时的温差均为7℃,说明这两个时段的温度变化是相等的。需要注意的是,若气温为0℃,不是没有温度,而是表示气温到达冰点。因此,没有绝对零点是等距数据的特征之一。像这类温度变量的数据就是等距数据,它能够分类、排序,而且还可以准确地表示类别间差距的大小。这类数据的单位相等,可进行加减运算,但由于无绝对零点,故不能进行乘除运算。心理学中的智商、能力分数等变量属于此类数据。
(4)比例数据又称为等比数据,也是反映观察对象属性的数量特征的一类数据。它与等距数据的差别在于有绝对固定的零点,简单地说,比例数据中的“0”表示“没有”。身高、体重、反应时间等变量都属于比例数据。这类数据除了具备前三种数据的全部特征外,还可以计算两个数据之间的比值。例如,父亲、儿子的体重分别是60.3kg,20.1kg,我们可以说父亲的体重是儿子的3倍。由于比例数据的单位相等,有绝对零点,因此可以进行加减乘除的四则运算。
上述四种数据对事物的测量水平是由低到高逐步递进的,高水平的数据包含了低水平数据的全部特性。高水平的数据转化为低水平的数据是比较容易的,而将低水平的数据转化为高水平的数据则很难。因此,在数据采集时应针对变量的特点设定相应的尺度水平,避免人为降低测量精度。
上述四种数据还可划分为计数数据和计量数据两大类。名义数据属于计数数据,等距数据和比例数据属于计量数据。顺序数据依据分析目的,有时为计数数据,多数情况属于计量数据。计数数据大都属于离散型数据,而计量数据大都借助某种测量工具获得,一般属于连续型数据。其连续性程度取决于测量技术所允许的精度。离散型数据与连续型数据的分布规律不同,因而适用的统计分析方法也有区别。