4.2.3 解释_可解释机器学习：黑盒模型可解释性理解指南-QQ阅读男生历史网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

4.2.3　解释

由于逻辑回归的结果是0～1 之间的概率，逻辑回归中权重的解释不同于线性回归中权重的解释。权重不再线性地影响概率，加权和由逻辑函数转换为概率。需要为解释重新构造方程，以便只有线性项在公式的右边：

图4-7　逻辑回归模型对肿瘤分类

将log（）函数中的项称为几率（odds）（即事件发生概率除以事件不发生概率），并用对数表示，称为对数几率（log odds）。

该公式表明，逻辑回归模型是对数几率的线性模型。现在，只要稍微改变这些项，就可以知道当特征xj 改变1 个单位时，预测是如何变化的。为此，首先可以将exp（）函数作用于公式的两边：

然后比较当将某个特征值增加1 时会发生什么。但是，这里不看差异，而是看两个预测的比率：

应用以下规则：

然后删除一些项：

最后，得到了一个简单的特征权重exp（βj）。一个特征改变1 个单位将会使几率比（odds ratio）改变exp（βj）。也可以这样解释：特征xj 改变1 个单位会增加对数几率比（log odds ratio）相应权重的值。大多数人解释几率比是因为人们觉得思考log（）对大脑来说很困难，而且光是解释几率比已经需要一些习惯。例如，如果几率为2，则表示y=1 的概率是y=0 的2 倍。如果有一个权重为0.7，则将相应的特征增加1 个单位，几率将乘以exp（0.7）（约为2），也就是几率将变为4。但通常不用处理几率，只要把权重解释为几率比。因为为了实际计算几率，需要为每个特征设置一个值，这只有在想查看数据集的一个特定实例时才有意义。

这些是具有不同特征类型的逻辑回归模型的解释：

·数值特征：如果将特征xj 增加一个单位，则估计的几率将乘以因子exp（βj）。

·二分类特征：只取两种可能值的特征，其一是参照类别（用0 编码）。将特征xj 从参照类别更改为其他类别，则估计的几率将乘以因子exp（βj）。

·具有多个类别的分类特征：具有固定数量的可能值的特征。处理多个类别的解决方案是独热编码，这意味着每个类别都有自己的列。对于具有L 个类别的分类特征，只需要L-1 列，因为第L 列将具有冗余信息（例如，当列1～L-1的值都为0 时，我们知道此实例的分类特征为第L 个类别）。然后对每个类别的解释与对二分类特征的解释相同。

·截距项β0：所有数字特征为零和分类特征为参照类别，则估计的几率是exp（β0）。截距的解释通常不相关。