上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.1 背景知识
2.1.1 线性判别分析
线性判别分析从高维特征空间中提取最具鉴别能力的低维特征,使得在低维空间里不同类别的样本尽量分开,同时每个类内部样本尽量密集。
设有d维样本,其中表示第i个样本,N表示样本总数。设是一个的矩阵,每个列向量表示第i类的一个n维样本。其中,表示第i类中的第j个样本,表示第i类样本个数,c表示样本类别总数。所有样本的均值。设第i类的样本均值为(i=1, …,c),则有。
Fisher准则函数定义如下:
其中,类间离散度矩阵SB和类内离散度矩阵SW分别定义为
由线性代数理论不难发现Wopt是满足等式
SBW=λSWW
的解。
线性判别分析面临两大挑战。
1.秩限制问题
下面考察类间离散度矩阵SB的秩,由前面的定义有
则类间离散度矩阵SB的秩为
式(2.1.2)表明LDA最多只能求c−1个非零特征向量,即LDA至多只能求c−1个判别方向,从而限制了更多判别信息的获得,进而造成分类性能的局限,这就是所谓的秩限制问题。
2.小样本问题
当样本总数大于样本维数时,类内离散度矩阵SW通常是非奇异的;否则,SW是奇异的。此种情况称为小样本问题。