可解释机器学习:黑盒模型可解释性理解指南
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.3.3 模块层面上的全局模型可解释性

模型的某些部分如何影响预测?

具有数百个特征的朴素贝叶斯模型太大了,至少很难保存在我们的记忆中。即使我们能够记住所有的权重,也无法快速预测新的数据点。此外,我们头脑中还需要有所有特征的联合分布,以估计每个特征的重要性以及特征平均如何影响预测。所以这基本是一项不可能完成的任务。但是我们能够很容易地理解一个权重。虽然全局模型可解释性通常是无法达到的,但至少有机会在模块层面上理解某些模型。并非所有模型都可以在参数级别上解释。对于线性模型,可解释部分是权重,对于树来说,是分割节点和叶节点预测。例如,线性模型看起来似乎可以在模块化层面上完美地解释,但单个权重的解释与所有其他权重是相互关联的。对单个权重的解释总是伴随着脚注,即“其他输入特征的值保持不变”,这在许多实际应用中并不现实。一个预测房屋价格的线性模型,考虑到房屋面积大小和房间数量,其中房间数量的特征可能具有负权重。之所以会出现这种情况,是因为已经存在高度相关的房屋面积这个特征。在人们更喜欢大房间的市场中,如果两间房屋的面积相同,那么房间少的房屋比房间多的房屋更值钱。可见,权重仅在模型中其他特征的上下文中有意义。当然,线性模型中的权重仍然可以比深层神经网络中的权重更好解释。