1.1 数据挖掘产生的背景
四种技术激发了人们对数据挖掘技术的开发、应用和研究的兴趣:① 超大规模数据库的出现,如商业数据仓库和计算机自动收集数据记录手段的普及;② 先进的计算机技术,如更快和更大的计算能力和并行体系结构;③ 对海量数据的快速访问,如分布式数据存储系统的应用;④ 统计方法在数据处理领域应用的不断深入。
近年来,计算机软件和硬件技术快速发展,互联网用户急剧增加,社会已进入网络化时代。在网络化时代背景下,通信、计算机和网络技术正改变着整个人类和社会。如果用芯片集成度来衡量微电子技术,用CPU处理速率来衡量计算机技术,用信道传输速率来衡量通信技术,摩尔定律告诉我们,它们都是以每18个月翻一番的速率在增长,这一势头已经维持了十多年。在美国,广播用户达到5000万户用了38年,电视用户用了13年,Internet拨号上网达到5000万户仅用了4年。全球IP网发展速度达到每6个月翻一番,国内情况亦然。《纽约时报》由20世纪60年代的10~20版扩张至现在的100~200版,最高曾达1572版,《北京青年报》也已是16~40版,《市场营销报》已达100版。然而在现实社会中,人均日阅读时间通常为30~45分钟,只能浏览一份24版的报纸。大量信息在给人们带来方便的同时也带来了一大堆问题:信息冗余、信息真假难以辨识、信息安全难以保证、信息形式不一、难以统一处理等。
随着信息技术的高速发展,数据库应用的规模、范围和深度不断扩大,互联网已成为信息传播的主流平台。“数据过剩”、“信息爆炸”和“知识贫乏”等现象相继产生,人们淹没在数据中而难以快速制定合适的决策。在强大的商业需求驱动下,商家开始注意到,有效地解决海量数据的利用问题具有巨大商机,学者们开始思考如何从海量数据集中获取有用信息和知识。然而,面对高维、复杂、异构的海量数据,提取潜在的有用信息成为巨大挑战。面对这一挑战,数据挖掘技术应运而生,并显示出强大的生命力。
数据挖掘思想来自于机器学习、模式识别、统计和数据库系统。数据挖掘概念首次出现在1989年举行的第十一届国际联合人工智能学术会议上。目前有许多数据挖掘方面的国际会议,如ACM SIGKDD(ACM's Special Interest Group on Knowledge Discovery and Data Mining)、ACM SIGMOD(ACM's Special Interest Group on Management Of Data)、CIKM(ACM Conference on Information and Knowledge Management)、ICDM(IEEE International Conference on Data Mining)、ECML PKDD(European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases)、PAKDD(Pacific-Asia Conference on Knowledge Discovery and Data Mining)、ICDE(IEEE International Conference on Data Engineering)、VLDB(Very Large Data Base)、ADMA(International Conference on Advanced Data Mining and Applications)、SDM(SIAM Conference on Data Mining)、ICMLC(International Conference on Machine Learning and Computing)。在数据挖掘的发展历程中,其研究重点从最初的侧重发现方法转向侧重系统应用,注重多种发现策略和技术的集成,注重学科间的相互渗透。此外,在Internet上还有不少KDD(Knowledge Discovery in Database,知识发现)电子出版物和自由论坛,如国际权威半月刊Knowledge Discovery Nuggets(http://www.kdnuggets.com/subscribe.html)、国内的数据挖掘研究院(中科院)http://www.dmresearch.net和中国商业智能网http://www.chinabi.net。
国内对数据挖掘的研究起步较晚,1993年国家自然科学基金首次支持该领域的研究。此后,国家、各省自然科学基金委,国家社科基金,“863”、“963”项目,国家、各省的科技计划,每年都有相关项目支持。众多研究机构和大学都成立有专门的项目组。从事数据挖掘研究与应用的人员越来越多,在中国期刊全文数据库CNKI中检索主题词“数据挖掘”得到的各年度论文数如图1-1所示。这表明最近十多年数据挖掘经历了快速发展期,2008年达到了顶峰,数据挖掘的基本理论问题逐步得到了解决,现在更多的是数据挖掘的应用。
在国内召开的许多信息技术学术会议中,数据挖掘也是非常重要的主题,如中国机器学习会议CCML(China Conference on Machine Learning)、全国数据库学术会议、中国数据挖掘会议CCDM(China Conference on Data Mining)、全国搜索引擎和网上信息挖掘学术研讨会SEWM(Symposium of Search Engine and Web Mining)。
图1-1 国内学术期刊网中检索主题词“数据挖掘”得到的年度论文数