Python广告数据挖掘与分析实战
上QQ阅读APP看书,第一时间看更新

2.3.2 箱形图分析法

图2-4所示为一个普通的箱形图,当样本数据绝对值距离上(Q3)下(Q1)边界大于1.5或3倍四分位距(IQR)时,可以认为该样本为一个异常数据。

图2-4 箱形图

最小估计值:Q1+/-k(Q3-Q1)

最大估计值:Q3+/-k(Q3-Q1)

k为1.5时,超过最大最小估计值的可以认定为异常值;当k为3时,超过最大最小估计值的可以认定为极端异常值。