3.2 密度估计的非参数方法_机器学习：从公理到算法-QQ阅读男生轻小说网

上QQ阅读APP看书，第一时间看更新

3.2　密度估计的非参数方法

除观测样本x1，x2，…，xN以外，如果对于p（x）一无所知但却需要估计p（x），此时的密度估计问题即为非参数方法。

3.2.1　直方图

最简单的方式是利用极限的思想，将空间划分成合适的区域，通过统计区域内的密度来得到。这种方法称为直方图密度估计方法。假设将样本所在空间划分成一些等大的紧致非空区域。假设x所在的区域内含有lx个观测样本，区域体积为V。对于空间中的任意一个点x，如果其位于区域内，可以得到密度估计（3.19）：

根据类表示唯一性公理，我们希望至少。统计学家已经证明两者近似成立的条件，但是这些条件过于理论化，对于实际应用只具有启发意义。有兴趣的读者可以参考文献 Duda R O, Hart P E, Stork D G. Pattern classification. New York: John Wiley & Sons, 2012. 的相关章节。

需要指出的是，当V越来越小时，密度估计（3.19）就退化为（3.20）：

其中，当x≠0，δ（x）=0；当x=0，δ（x）取值无穷大，但其积分为1。因此，可以知道，基于直方图的密度估计的优点是计算简单，缺点是估计的函数不连续。没有样本点的区域密度估计直接为零，有样本点的区域密度估计很大，显然误差很大。因此，需要考虑更加复杂的密度估计方法。

但是，有时候随机变量x本身是离散变量，此时可以用直方图方法来估计P（x）。

对于直方图来说，其样本的输入特征维数不能太高，一般限定在三维以下，常用的为一维。这是因为假设每维划定为10个等大区域，则p维所形成的区域数目为10p。由于区域数据随维数指数倍增长，在很多区域会没有样本，或者样本极少，这就会导致密度估计极不准确，也就是所谓的维数灾难问题。为了避免维数灾难，直方图方法只适用于低维问题。

3.2.2　核密度估计

直方图法虽然直观简单，但是由于样本数据始终有限，因此导致得到的间断不连续，与生活常识不符。为了使连续，每个观测样本对密度的影响也应该是连续的，其对密度的影响力应该随着距离的增加而平滑减小。由此得到核密度估计公式（3.21）：

其中参数h称为带宽，K（x）称为核函数，如果K（x）满足条件（3.22）：

常用的核函数如下。

Epanechnikov核：

高斯核：

3.2.3　K近邻密度估计法

在直方图密度估计方法中，每个区域的大小恒定，区域内的点变化很大，最终导致密度估计也变化剧烈。因此，一个更加合理的方法是固定划分区域内的样本点个数为K，划分区域的体积大小自适应确定。这种方法称为K近邻密度估计法。根据以上的分析，假设x所在的K近邻区域的区域体积为VK，含有K个与其最近的样本。由此，可以得到K近邻密度估计（3.23）：