可解释机器学习:黑盒模型可解释性理解指南
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

4.1.3 可视化解释

各种可视化效果便于快速掌握线性回归模型。

1.权重图

权重表的信息(权重和方差估计)可以在权重图(Weight Plot)中可视化呈现。图4-1 显示了先前线性回归模型的结果,图中权重显示为点,95% 置信区间显示为线。

图4-1 线性回归模型的权重图

权重图显示,雨雪天气对预测的自行车数量有很大的负效应。“是否工作日(是)”特征的权重接近于零,并且95% 的区间中包含零,这意味着该效应在统计上不显著。一些置信区间很短,估计值接近于零,但特征效应在统计上是显著的,“温度”就是这样的一个例子。权重图的问题在于特征是在不同的尺度上测量的。虽然对于“天气情况”,估计的权重反映了晴天和雨雪天气之间的差异,但温度只反映了1°C 的增加情况。在拟合线性模型之前,可以通过缩放特征(例如均值为0 和标准差为1),使估计的权重更具可比性。

2.效应图

当线性回归模型的权重与实际特征值相乘时,可以进行更有意义的分析。权重取决于特征的比例,比如有一个测量身高的特征,如果测量单位从米转换到厘米,那么权重会有所不同。权重会改变,但在数据中的实际效应不会改变。了解数据中特征的分布也是很重要的,因为如果方差非常小,这意味着这个特征几乎在所有的实例中都有类似的贡献。效应图(Effect Plot)可以帮助了解权重和特征的组合对数据预测的贡献程度。首先计算特征效应,即每个特征的权重乘以实例的特征值:

使用箱线图可以可视化效应。如图4-2 所示,箱线图中的框包含一半数据的特征效应范围(即效应值的1/4 分位数到3/4 分位数)。框中的垂直线是中位数(即50%的实例对预测的影响小于此值,另一半高于此值)。水平线延伸到img,其中IQR 是四分位数之间的范围(即3/4 分位数减去1/4 分位数),这些点是离群点。与每个类别都用单独一条线表示的权重图相比,分类特征的效应可以总结为一个单独的箱线图。

图4-2 特征效应图

对预测自行车租赁数量的最大贡献来自“温度”特征和“天数”特征,后者反映了自行车租赁数量随时间的趋势。“温度”在很大程度上有助于预测。对于“天数”特征,数据集中的第一天(2011 年1 月1 日)具有非常小的特征效应,而且该特征的估计权重为4.9,这意味着该特征效应每天都在增加,并且在数据集中的最后一天达到最高(2012 年12 月31 日)。要注意负权重的特征效应,对于这些负权重,具有负特征值的实例表现出来的是正的效应。