统计学(微课版)
上QQ阅读APP看书,第一时间看更新

1.2 统计学中的几个基本概念

统计学中的几个基本概念

1.2.1 随机性与概率

明天会下雨吗?这只股票的价格会上涨吗?公司今年的销售额可以达到多少?旅游途中会不会发生意外事故?我们每个人的寿命有多长?抛硬币时会得到正面还是反面?面对这些问题时,我们无法事先给出百分之百确定的答案,或者说,所有这些事件的结果无法百分之百准确地预测,这就是随机性(randomness)

那么,我们又该如何进行决策、制订自己的行动计划呢?幸运的是,当我们把大量重复的个体随机事件放在一起时,往往会发现其中令人惊奇的规律。如果将同一枚硬币抛掷100次,会得到差不多50次正面朝上、50次反面朝上的结果;在过去10年时间里,中国每年因交通事故死亡的人数都在10万左右;2018年我国居民人均预期寿命为77岁。

显然,在现实世界中,个体的随机性无法彻底消除。统计学正是在接受随机性的前提下,通过发展出一套科学的原则和方法,巧妙地挖掘出大量随机事件中可能隐藏的规律和模式,并对其进行量化测度,从而帮助人类认识世界,做出合理决策。其中,统计学最重要的量化工具和理论基石,便是概率。

概率(probability)是一个在0到1之间取值的数,描述的是某个特定事件发生的机会有多大。

我们已经知道,抛掷一枚硬币,正面朝上和反面朝上的概率都是0.5;人们如果每天抽烟超过5支,75岁死于肺癌的概率为25%;如果30岁左右戒烟,死于肺癌的概率不到2%;如果50岁戒烟,死于肺癌的概率不到6%2004年《英国癌症杂志》发表的经典论文数据。

1.2.2 变量与数据

人们利用各种统计方法研究现实问题,无非是希望得出有关某一研究对象的决策结论。政府通过统计调查观察每年的人口总数、国内生产总值(Gross Domestic Product,GDP)、进出口总额,以便制定更为合理有效的宏观政策;企业通过观察每个月的生产量、成本、销售额,以便筹划最优的投入产出安排;投资者通过观察某只股票每日的成交量、开盘价格和收盘价格,以便决定未来的买入卖出计划。

在上述过程中,人们观察的是“一个国家”“一个企业”或“一只股票”,这些研究对象的某些方面的特征,并且每次(每年、每月或每日)观察的结果可能不尽相同。一个国家每年的人口总数、GDP、进出口总额都可能发生变化;一个企业每月的生产量、成本、销售额也可能有所波动;一只股票每天的成交量、开盘价格和收盘价格更不会恒定不变。因此,这里的“人口总数”“GDP”“进出口总额”“生产量”“成本支出”“销售额”“成交量”“开盘价”和“收盘价”等就是统计学中的另一个重要理论基石——变量。

依据上面的描述,变量(variable)是指某一特定研究对象可以取两个或更多个可能值的特征或属性。每次观察变量记录下来的结果,就形成了数据(data)

如果变量每次的观察结果可以用数字来记录,那么这样的变量就称为定量变量(quantitative variable)数值变量(metric variable),记录下来的数据也就相应地称为定量数据(quantitative data)数值数据(metric data)。上面所提到的这些变量均属于定量变量,但有所不同的是,“人口总数”“生产量”“成交量”等变量只能取离散的数值,其取值可以一一列举,这是定量变量中的离散变量(discrete variable);而“GDP”“进出口总额”“成本支出”“销售额”“开盘价”和“收盘价”等变量可以在一个或多个区间内取任何可能的值,其取值是连续不断的,不能一一列举,这是定量变量中的连续变量(continuous variable)

如果变量每次的观察结果记录的是文字或字符,代表的只是研究对象的某一类别或属性,那么这样的变量就称为定性变量(qualitative variable)类别变量(categorical variable)。例如,医院观察每个出生婴儿的“性别”,记录“男”或“女”;网上购物平台观察每个消费者的购物地点,记录不同的省份城市;保险公司调查每个投保人的受教育程度,记录“本科以下”“本科”“研究生”等不同学历;政府调查每个公民对现行税收政策的满意程度,记录“不满意”“一般”“非常满意”等不同评价。这些定性变量的观察结果就是定性数据(qualitative data)类别数据(categorical data)。进一步地,如果变量不同的类别或属性之间没有先后顺序,就是无序类别变量;反之,则称为有序类别变量。显然,“性别”和“购物地点”属于无序类别变量,而“学历”和“满意程度”则属于有序类别变量。值得一提的是,有时候为了方便,人们也可能用数字来代替文字或字符,以记录上述类别数据。例如,用1和2分别代表“男”和“女”;用1到3分别代表不同的满意程度等。但这些数字本身没有真正的数值含义,仍然只是对事物的一个简单分类,这也正是类别数据与数值数据的根本区别所在。

图1-1展示了变量的基本分类。

图1-1 变量的基本分类

1.2.3 总体与样本

在收集数据的过程中,我们希望研究的所有个体组成的集合就称为总体(population)。例如,国家制定社会经济政策时,需要了解全国所有居民的收入信息,那么全国所有居民就构成了一个总体;某公司计划推出一款新口味饮料时,需要预估消费者的市场反应,那么该产品的所有潜在消费者就构成了一个总体。

有的时候也许可以获得总体中每个个体的数据。例如,我国政府每隔一定时期进行的人口普查。但由于受资金、时间以及不断变化的环境条件等因素的影响,更多的情况下,研究者往往只能获取部分个体的数据。例如,某在校大学生设计了一套项目方案,想要分析全校学生在“双11”当日的网上购物支出情况,受条件限制,最终仅抽取了300个同学进行调查。显然,这300个被抽中的同学只是全校学生(即研究总体)中的一部分,我们把这部分个体组成的子集合就称为一个样本(sample),而抽中的个体的数量(300人)就是样本的大小,即样本量(sample size)

总体中的每个个体也称为总体单位或单元(element)。它可以是一个人,一棵植物,一块土地或一个国家,取决于研究的目的和数据收集的适用性。数据收集的过程就是对总体单位某一特征(即变量)的度量。表1-1给出了一些变量、变量取值及总体单位的不同示例。

表1-1 变量、变量取值及总体单位