机器学习:软件工程方法与实现
上QQ阅读APP看书,第一时间看更新

3.1 常用数据分布

在开始详细讲述分布前,先来看看我们会遇到哪些种类的数据。数据可以分为离散数据和连续数据两种。

·离散数据:取值是可数的个值的随机变量,比如投掷一枚骰子,朝上的点数可能是1~6间的任意整数,不可能出现2.1或3.5这样的数值。

·连续数据:值是一个区间中的任意一点的随机变量,比如某大学男生体重,可以是54千克、54.5千克或54.536千克。

对于任何一位数据从业者来说,数据分布是必须要了解的概念,它为分析和推理统计提供了基础。描述数据分布和相关统计指标主要从如下3个方面来看。

·分布的集中趋势,反映了各数据向其中心值靠拢或聚集的程度。相关统计指标有中位数、分位数、均值等。

·分布的离散程度,反映了各数据远离其中心值的趋势。相关统计指标有内距、方差和标准差等。

·分布的形状,反映了数据分布的偏态和峰态。相关统计指标有偏度及其测度、峰度及其测度等。

在Python和R中都有相关服从指定分布的随机数函数库,本书主要结合Python统计函数库SciPy来讲解常见的分布和统计函数。SciPy是一个高级的科学计算库,它内置了许多科学计算中常见问题的功能接口,例如插值运算、优化算法、图像处理、数学统计等。SciPy的统计函数Stats模块包含了多种概率分布,其中随机变量又分为连续和离散两种。所有的连续随机变量都是rv_continuous的派生类的对象,而所有的离散随机变量都是rv_discrete的派生类的对象。常见的分布如表3-1所示,更多详细介绍请查看官网文档[1]

表3-1 Stats常见分布函数

上面只列出了常见的分布函数,实际上Stats模块提供了大约90种连续分布和10多种离散分布函数,这些分布都依赖于numpy.random函数。各个分布的通用函数如表3-2所示。

表3-2 Stats通用函数

[1] https://docs.scipy.org/doc