3.1 常用数据分布_机器学习：软件工程方法与实现-QQ阅读男生轻小说网

上QQ阅读APP看书，第一时间看更新

3.1　常用数据分布

在开始详细讲述分布前，先来看看我们会遇到哪些种类的数据。数据可以分为离散数据和连续数据两种。

·离散数据：取值是可数的个值的随机变量，比如投掷一枚骰子，朝上的点数可能是1～6间的任意整数，不可能出现2.1或3.5这样的数值。

·连续数据：值是一个区间中的任意一点的随机变量，比如某大学男生体重，可以是54千克、54.5千克或54.536千克。

对于任何一位数据从业者来说，数据分布是必须要了解的概念，它为分析和推理统计提供了基础。描述数据分布和相关统计指标主要从如下3个方面来看。

·分布的集中趋势，反映了各数据向其中心值靠拢或聚集的程度。相关统计指标有中位数、分位数、均值等。

·分布的离散程度，反映了各数据远离其中心值的趋势。相关统计指标有内距、方差和标准差等。

·分布的形状，反映了数据分布的偏态和峰态。相关统计指标有偏度及其测度、峰度及其测度等。

在Python和R中都有相关服从指定分布的随机数函数库，本书主要结合Python统计函数库SciPy来讲解常见的分布和统计函数。SciPy是一个高级的科学计算库，它内置了许多科学计算中常见问题的功能接口，例如插值运算、优化算法、图像处理、数学统计等。SciPy的统计函数Stats模块包含了多种概率分布，其中随机变量又分为连续和离散两种。所有的连续随机变量都是rv_continuous的派生类的对象，而所有的离散随机变量都是rv_discrete的派生类的对象。常见的分布如表3-1所示，更多详细介绍请查看官网文档^[1]。

表3-1　Stats常见分布函数

上面只列出了常见的分布函数，实际上Stats模块提供了大约90种连续分布和10多种离散分布函数，这些分布都依赖于numpy.random函数。各个分布的通用函数如表3-2所示。

表3-2　Stats通用函数

[1] https://docs.scipy.org/doc