统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

10.16 平滑一个类别变量

在建模过程中纳入一个类别变量的经典做法是借助哑变量。一个具有k类定性信息的类别变量等同于k-1个哑变量,用来替代模型中的类别变量。哑变量可以根据类别值是否存在分别取值1或0。没有被纳入的类别称为参考类别。在解读哑变量对回应变量的效应时,参考类别用作对照基准。经典方法要求将k-1个哑变量全部纳入模型,包括那些不显著的哑变量。当类别的数量很大时,这种方法会出现问题,而在大数据应用中,通常存在大量的类别变量。从概率上看,当有很多个类别时,哑变量变得不显著的概率也会增加。把所有哑变量放进模型里会增加模型的噪声或不可靠性,因为不显著的变量的噪声比较大。直觉上,大量不可分离的哑变量会增加建模的困难,它们迅速“塞满”了模型,没有为其他变量留下空间。

在将类别变量纳入模型时,采用EDA方法可以作为经典方法的一个可行的替代做法,因为这样可以解决大量哑变量带来的问题。通过合并(平滑或平均)具有可比取值的独立变量可减少类别的数量,对于回应建模来说,这个独立变量就是应答率。经过平滑处理的类别变量虽然变少了,但不会给模型带来更多噪声,而且给其他变量纳入模型留下了更多空间。

对类别变量进行平滑处理还有另一个好处。这个平滑后的类别变量捕获的信息要比那些哑变量承载的信息更为可靠。类别变量信息的可靠性和每个类别信息的加总的可靠性是差不多的。小的类别可能提供不可靠信息。一个极端情况是类别大小为1,这个类别的应答率估计值是100%或0%,具体取决于这个类别回应或不回应。这个应答率估计值不太可能是真实应答率。相对于真实应答率,这个类别可能会提供不可靠的信息。所以说,类别变量的信息可靠度会随着取值小的类别数量减少而得以提高。平滑后的类别变量会比哑变量有更高的可靠度,因为其本身具有更少的类别,因而在合并过程中有更大的类别规模。根据EDA的经验法则,小类别指的是不超过200个变量。

CHAID通常是平滑类别变量的EDA优选方法。本质上,CHAID是一种出色的EDA技术,因为其中包含了统计监测的三个主要要素:数值化、记点、图形化。基于对应答率进行数字化合并或求均值,CHAID形成了新的更大的类别,并且通过确定最佳合并类别减少了类别数量。最后一点是,CHAID的处理结果可以方便地以容易阅读和理解的图形方式展现出来,这是一个像树一样的方框图,其中叶子表示合并的类。

CHAID合并过程的技术细节超出了本章范围。我们将在下一章更深入介绍CHAID方法,这里只做简要介绍,展示一下在预测TXN_ADD回应时对最后一个变量FD_TYPE如何进行平滑处理。