数据挖掘与机器学习-WEKA应用技术与实践(第二版)
上QQ阅读APP看书,第一时间看更新

课后强化练习

2.1 加载weather.nominal.arff文件后,temperature属性可以有哪些合法值?

2.2 加载iris.arff文件后,该数据集有多少个实例?有多少个属性?petalwidth属性值可取的范围是多少?

2.3 使用数据集编辑器打开weather.nominal.arff文件,实例编号为2的类别属性值是多少?

2.4 使用数据集编辑器加载iris数据集,该数据集的属性中有多少个是数值型的?又有多少个是标称型的?

2.5 加载weather.nominal.arff数据集,使用weka.unsupervised.instance.RemoveWithValues过滤器去除humidity属性值为high的全部实例。

提示:首先选择RemoveWithValues过滤器,然后在通用对象编辑器中尝试调整参数,弄清楚每个参数的含义,并解决问题。

2.6 根据图2.51所示的决策树,下列实例会怎样进行分类?

outlook=sunny,temperature = cool,humidity=high,windy=TRUE

2.7 使用离散化处理过的属性,某些属性在直方图中只有单一一栏,这是怎么回事?

2.8 使用FilteredClassifier和J48,并采用有监督的二元离散化,与只使用J48处理原始数据的结果相比较。为何从离散化后的数据构建的决策树,比起直接从原始数据构建的决策树,有更好的预测效果?

2.9 在“手工选择属性”实验中,是否可以使用J48替换IBk?为什么?

2.10 对于weather.nominal.arff数据,根据Apriori算法输出,下列项集的支持实例有几个?

temperature=cool,humidity=normal,windy=FALSE,play=yes

2.11 假设想生成具有一定置信度和最小支持度的全部规则,可以对minMetric、lowerBoundMinSupport以及numRules参数设置适当的值。对于表2.15中天气数据的每一种组合参数值,可能的规则总数是多少?

表2.15 练习2.11表

2.12 对labor.arff文件中的劳资谈判数据应用排序技术,确定基于信息增益的四个最重要的属性。

2.13 使用劳资谈判数据集,运行基于相关性的CfsSubsetEval评估器,使用BestFirst搜索方法;然后运行J48作为基学习器的包装方法,再次使用BestFirst搜索方法。检查输出的属性子集,这两种方法都选择出来的有哪些属性?它们与使用信息增益所生成的排序输出有何关系?