机器学习:从公理到算法
上QQ阅读APP看书,第一时间看更新

4.2 岭回归

线性回归可以计算(w,b)的条件是矩阵(AAT)可逆。但是很多情况下,矩阵不可逆。特别是当N<< p时,矩阵肯定不可逆。此时,传统线性回归会出现自变量间存在严重的线性相关的情况。当自变量间存在线性相关时,使用线性回归模型将很难估计回归系数且系数的估计方差会变得很大,这表现为当得到很大的正系数项时,都可被一个同样大的与之相关的负系数项相抵消。在此情形下,能够最小化目标函数(4.1)的(w,b)值有时不唯一,甚至会非常之多,这种情形被Leo Breiman称之为罗生门现象Breiman L. Statistical modeling: the two cultures. Statistical Science, 2001, 16(3): 199-231.。罗生门现象与类表示唯一公理矛盾。如何解决罗生门现象,从最小化目标函数(4.1)的众多可行解中选出最优解?一个自然的想法是使用奥卡姆剃刀准则,定义类表示的复杂度,选取最简单的类表示。对于类表示,其复杂度需要考虑(wTb)。注意到公式(4.6),如果令,则可以证明b=0,此时,类表示的复杂度可以只考虑w。为此,可对数据X做如下正则化处理,。在本章的后面部分,都假设对数据进行了正则化处理。

在对数据X正则化处理之后,可以知道类表示为,如果类表示的复杂度定义为‖w2,则奥卡姆剃刀准则要求选取具有最小范数的可行解。

综合以上考虑,同时使用类一致性准则和奥卡姆剃刀准则,就可以得到岭回归(ridge regression)的目标函数(4.18):

综合考虑问题(4.18),则可以考虑如下问题:

其中,λ≥0称为正则化参数,用来控制收缩程度。λ越大,收缩程度越大;当λ=0时,岭回归退化为原始的线性回归问题。

,仍然按照针对w求偏导置0的方式,得到

其中I∈ℝp×p为单位阵。这样,即使本身不是满秩的,加上λI也可组成非奇异矩阵。这是在统计学中首次提出岭回归的主要原因。