机器学习:从公理到算法
上QQ阅读APP看书,第一时间看更新

3.2 密度估计的非参数方法

除观测样本x1x2,…,xN以外,如果对于px)一无所知但却需要估计px),此时的密度估计问题即为非参数方法。

3.2.1 直方图

最简单的方式是利用极限的思想,将空间划分成合适的区域,通过统计区域内的密度来得到。这种方法称为直方图密度估计方法。假设将样本所在空间划分成一些等大的紧致非空区域。假设x所在的区域内含有lx个观测样本,区域体积为V。对于空间中的任意一个点x,如果其位于区域内,可以得到密度估计(3.19):

根据类表示唯一性公理,我们希望至少。统计学家已经证明两者近似成立的条件,但是这些条件过于理论化,对于实际应用只具有启发意义。有兴趣的读者可以参考文献Duda R O, Hart P E, Stork D G. Pattern classification. New York: John Wiley & Sons, 2012.的相关章节。

需要指出的是,当V越来越小时,密度估计(3.19)就退化为(3.20):

其中,当x≠0,δx)=0;当x=0,δx)取值无穷大,但其积分为1。因此,可以知道,基于直方图的密度估计的优点是计算简单,缺点是估计的函数不连续。没有样本点的区域密度估计直接为零,有样本点的区域密度估计很大,显然误差很大。因此,需要考虑更加复杂的密度估计方法。

但是,有时候随机变量x本身是离散变量,此时可以用直方图方法来估计Px)。

对于直方图来说,其样本的输入特征维数不能太高,一般限定在三维以下,常用的为一维。这是因为假设每维划定为10个等大区域,则p维所形成的区域数目为10p。由于区域数据随维数指数倍增长,在很多区域会没有样本,或者样本极少,这就会导致密度估计极不准确,也就是所谓的维数灾难问题。为了避免维数灾难,直方图方法只适用于低维问题。

3.2.2 核密度估计

直方图法虽然直观简单,但是由于样本数据始终有限,因此导致得到的间断不连续,与生活常识不符。为了使连续,每个观测样本对密度的影响也应该是连续的,其对密度的影响力应该随着距离的增加而平滑减小。由此得到核密度估计公式(3.21):

其中参数h称为带宽,Kx)称为核函数,如果Kx)满足条件(3.22):

常用的核函数如下。

Epanechnikov核:

高斯核:

3.2.3 K近邻密度估计法

在直方图密度估计方法中,每个区域的大小恒定,区域内的点变化很大,最终导致密度估计也变化剧烈。因此,一个更加合理的方法是固定划分区域内的样本点个数为K,划分区域的体积大小自适应确定。这种方法称为K近邻密度估计法。根据以上的分析,假设x所在的K近邻区域的区域体积为VK,含有K个与其最近的样本。由此,可以得到K近邻密度估计(3.23):