统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

10.16.1 用CHAID平滑FD_TYPE

我们记得FD_TYPE是代表客户最近购买的产品类型的一个类别变量。我们将14种产品(类别)分别记为A,B,C,…,N。以FD_TYPE值作为TXN_ADD的应答率,见表10.18。

表10.18 FD_TYPE

其中7个小品类(F,G,J,K,L,M,N)的数量分别为42,45,57,94,126,19和131。它们的应答率分别为0.26,0.24,0.19,0.20,0.22,0.42和0.16,这些可能是不太可靠的。品类B的数量最多,高达2828,应答率0.06比较可靠。剩下5组较可靠的品类(A,C,D,E,H)的数量介于219到368之间。

FD_TYPE的CHAID树(见图10.17)的说明如下:

1)顶上的方框是这棵树的根,代表样本数4926,应答率11.9%。

2)用CHAID方法平滑FD_TYPE,将原来的14个品类合并为3个(平滑)品类,见图上CHAID树的三个分支。

3)最左边一支包括6个不可靠的小品类(不包括N)和两个可靠的品类A和E,代表一个新合并的品类,样本数为1018,应答率是24.7%。在这种情况下,平滑过程通过两步求平均值,提高了小品类的可靠度。第一步是将全部小品类合成一个临时品类,也就是由样本数383的一个品类得出一个可靠的平均应答率22.7%。第二步经常不会在平滑过程中发生,这个临时品类进一步和可靠的品类A和E合成,而这两个品类与临时品类具有差不多大小的应答率。这个二次平滑形成的新合成品类代表了7个小品类和品类A、品类E的平均应答率。如果没有进行第二次平滑处理,则这个临时品类就是最后的品类。

4)对类别变量进行平滑处理可以显著提高可靠度。我们看样本数为19的品类M,它具有一个不可靠的应答率估计值42%。平滑处理是将品类M放在更大且更可靠的应答率为24.7%的最左边分支里。结果就是品类M现在有一个更可靠的应答率估计值,即24.7%。所以,通过平滑处理可以有效地将品类M原来的应答率估计值向下调,从偏离较大的42%调低到可靠的24.7%。作为对比,在同一个平滑处理过程中,品类J的应答率会向上调,从19%调整到24.7%。而两个可靠的品类A和E并没有出现太大改变,只是分别从25%和26%变为24.7%。

图10.17 FD_TYPE二次平滑CHAID

5)图上中间一支只含有品类B,这个品类的样本量是2828,具有一个可靠的应答率6.6%。显然,这个较低的应答率明显和其他品类(原来的、临时的或新合成的)的应答率不同。而且不需要进一步合成。所以说,品类B原来的应答率估计值在平滑之后没有发生变化。品类B的样本量是最大的,所以不会影响到可靠度。

6)最右边一支包含了大品类C,D,H和I,以及小品类N,样本量为1080,平均应答率为13.9%。平滑处理将品类N的应答率从16%调整到13.9%。而品类C也发生了类似下调。其余品类D,H和I则出现了上调。

我将经过平滑处理的类别变量称作CH_TYPE。它的三个类分别标为1,2和3,分别对应着从左到右3个分支(见图10.17下部)。

我们也为CH_TYPE设定了两个哑变量:

1)如果FD_TYPE=A,E,F,G,J,K,L或M,则CH_FTY_1=1;否则,CH_FTY_1=0。

2)如果FD_TYPE=B,则CH_FTY_2=1;否则,CH_FTY_2=0。

3)将CH_TYPE=3当作参照类别。

如果一个个体具有CH_FTY_1=0和CH_FTY_2=0,则意味着CH_TYPE=3,而且是原类别(C,D,H,I,N)之一。