1.3.2 智能分类
智能分类是数据挖掘的另一项重要内容,分类技术的核心是构造分类器。分类器一般具有良好的泛化能力,能够准确地预测未知样本的类别。分类器工作一般会经历训练和测试两个阶段。训练阶段根据训练数据集的特点得到分类标准,测试阶段完成新进数据类属判定的任务。按照不同的标准,可对分类器进行如下分类。
(1)根据工作原理,可将分类器分为概率密度模型、决策边界学习模型和混合模型。概率密度模型在估计每类概率密度函数的基础上,用贝叶斯决策规则实现分类;决策边界学习模型在学习过程中最优化一个目标函数,该函数表示训练样本集上的分类错误率、错误率的上界或与分类错误率相关的损失;混合模型先对每类模型建立一个概率密度模型,然后用判别学习准则对概率密度模型的参数进行优化。
(2)根据表达形式,可将分类器分为区分模型和生成模型。区分模型通过对训练样本的学习生成分类标准,生成模型根据概率依赖关系构造分类模型。
(3)根据求解策略,可将分类器分为基于经验风险最小化模型和基于结构风险最小化模型。早期的分类器求解算法基本上基于经验风险最小化模型,结构风险最小化模型基于权衡经验风险和置信范围。
近年来,智能分类受到中外学者的极大关注,在数据挖掘、机器学习、情报分析等领域取得了令人振奋的成果。在决策树分类方面,Quinlan提出的ID3算法[48]在信息论互信息的基础上建立树状分类模型;针对ID3的不足,有研究者先后提出C4.5[49]、PUBLIC[50]、SLIQ[51]、RainForest[52]等改进算法。在基于关联规则分类方面,Liu等人提出的关联分析算法(Classification Based on Association,CBA)[53]采用经典的Apriori算法发现关联规则;Li等人提出的多维关联规则分类算法(Classification Based on Multiple Class Association Rules,CMAR)[54]利用FP-Growth算法挖掘关联规则;Yin等人提出的预测性关联规则分类算法(Classification Basedon Prediction Association Rules,CPAR)[55]采用贪婪算法直接从训练样本中挖掘关联规则。在支持向量机方面,Vapnik等人提出支持向量机(Support Vector Machine,SVM),由于最优化问题中有一个惩罚参数C,因此也称C-SVM[56−58];由于参数C没有确切含义且选取困难,Scholkopf等人提出ν-SVM[59],其中,参数ν用来控制支持向量的数目和误差且易于选取;通过扩展SVM最大间隔的思想,Scholkopf在前人工作的基础上提出单类支持向量机(One Class Support Vector Machine,OCSVM)[60],该方法通过构造超平面来划分正常数据和异常数据;针对单类问题,Tax等人提出支持向量数据描述(Support Vector Data Description,SVDD)[61]的概念,该方法采用最小体积超球约束目标数据达到剔除奇异点的目的;Tsang等人提出基于最小包含球(Minimum Enclosing Ball,MEB)的核心向量机(Core Vector Machine,CVM)[62],该方法有效地提高了SVM求解二次规划问题的效率。此外,常见的SVM变种还有最小二乘支持向量机(Least Squares Support Vector Machine,LSSVM)[63]、Lagrange支持向量机(Largrangian Support Vector Machine,LSVM)[64]、简约支持向量机(Reduced Support Vector Machine,RSVM)[65]、光滑支持向量机(Smooth Support Vector Machine,SSVM)[66]等。在贝叶斯分类方面,Kononenko提出的半朴素贝叶斯分类器(Semi-naive Bayesian Classifier)[67]采用穷尽搜索的属性分组技术实现分类;Langley等人提出的基于属性删除的选择性贝叶斯分类器(Selective Bayesian Classifier Based on Attribute Deletion)[68]通过删除冗余属性来提高分类精度;Kohavi通过将朴素贝叶斯分类器和决策树相结合,提出朴素贝叶斯树型学习机(Naive Bayesian Tree Learner)[69];Zheng等人提出的基于懒惰式贝叶斯规则(Lazy Bayesian Rule,LBR)的学习算法[70]将懒惰式技术应用到局部朴素贝叶斯规则的归纳中;Friedman等人提出的树扩张型贝叶斯分类器(Tree Augmented Bayesian Classifier)[71]通过构造最大权生成树实现分类。此外,还有神经网络分类算法、K近邻分类法、基于粒度和群的分类算法等。
上述分类方法各有特点和适用范围,它们之间互相渗透。经过几十年的发展,智能分类方法显现出强大的生命力,其理论体系不断完善,应用领域不断扩大,受关注程度不断提高。随着相关理论和技术的逐步完善,智能分类理论和方法必将不断发展。