课后强化练习
2.1 加载weather.nominal.arff文件后,temperature属性可以有哪些合法值?
2.2 加载iris.arff文件后,该数据集有多少个实例?有多少个属性?petalwidth属性值可取的范围是多少?
2.3 使用数据集编辑器打开weather.nominal.arff文件,实例编号为2的类别属性值是多少?
2.4 使用数据集编辑器加载iris数据集,该数据集的属性中有多少个是数值型的?又有多少个是标称型的?
2.5 加载weather.nominal.arff数据集,使用weka.unsupervised.instance.RemoveWithValues过滤器去除humidity属性值为high的全部实例。
提示:首先选择RemoveWithValues过滤器,然后在通用对象编辑器中尝试调整参数,弄清楚每个参数的含义,并解决问题。
2.6 根据图2.51所示的决策树,下列实例会怎样进行分类?
outlook=sunny,temperature = cool,humidity=high,windy=TRUE
2.7 使用离散化处理过的属性,某些属性在直方图中只有单一一栏,这是怎么回事?
2.8 使用FilteredClassifier和J48,并采用有监督的二元离散化,与只使用J48处理原始数据的结果相比较。为何从离散化后的数据构建的决策树,比起直接从原始数据构建的决策树,有更好的预测效果?
2.9 在“手工选择属性”实验中,是否可以使用J48替换IBk?为什么?
2.10 对于weather.nominal.arff数据,根据Apriori算法输出,下列项集的支持实例有几个?
temperature=cool,humidity=normal,windy=FALSE,play=yes
2.11 假设想生成具有一定置信度和最小支持度的全部规则,可以对minMetric、lowerBoundMinSupport以及numRules参数设置适当的值。对于表2.15中天气数据的每一种组合参数值,可能的规则总数是多少?
表2.15 练习2.11表
2.12 对labor.arff文件中的劳资谈判数据应用排序技术,确定基于信息增益的四个最重要的属性。
2.13 使用劳资谈判数据集,运行基于相关性的CfsSubsetEval评估器,使用BestFirst搜索方法;然后运行J48作为基学习器的包装方法,再次使用BestFirst搜索方法。检查输出的属性子集,这两种方法都选择出来的有哪些属性?它们与使用信息增益所生成的排序输出有何关系?