前言
移动互联网、社交网、云计算、物联网的飞速发展促使大数据的各种应用迅速增多,搭建在大数据平台上的各类应用服务已成为含有大量用户隐私信息和体现运营商利益的共同体,应用层的安全问题变得越来越严峻。然而国内外相关的技术往往针对分布式集群系统的下层,很少针对分布式集群系统的上层,对于系统应用中的异常检测分析而言,实时检测与定位异常的能力较弱。分布式异常检测技术是当前学术界与产业界的广泛研究热点,但实用的成果还不多。在此背景下,针对大数据平台准确地检测异常并发现其根源,直接关系到大数据平台运营商及平台用户的广泛利益,因此,研究大数据平台在应用层的各类异常检测分析方法具有重要意义。
本书以大数据平台上层应用的异常检测关键技术为主要研究内容,一方面,将离线分析方法和实时检测方法相结合,研究大数据平台异常检测分析的关键技术;另一方面,对异常检测系统研发的关键模块进行详细描述。
全书共18章,第1章介绍对大数据平台进行异常检测分析的背景与意义、相关研究进展、本书的主要贡献与组织结构等;第2章介绍大数据平台异常检测分析的相关基础;第3章介绍基于数据流二重概念漂移检测的增量学习;第4章介绍分布式日志的最大频繁序列模式挖掘算法;第5章介绍基于最大频繁模式的动态规则库构建算法;第6章介绍基于Web会话流的分布式实时异常定位算法;第7章介绍基于最大信息系数的在线异常检测算法;第8章介绍基于聚类分析的离线异常检测算法;第9章介绍基于相邻请求的动态时间阈值会话识别算法;第10章介绍基于会话特征相似性模糊聚类的SFAD异常检测算法;第11章介绍基于贝叶斯粒子群的异常检测算法;第12章介绍平台异常时的推测式任务调度策略;第13章介绍基于实时负载的推测式任务调度算法;第14章介绍大数据Lambda架构与微服务架构技术选型;第15章介绍大数据平台异常检测分析系统的结构化分析;第16章介绍基于融合架构的RADA系统概要设计;第17章介绍RADA系统的详细设计与实现方法;第18章是总结与展望。
本书由肖如良著,较全面地介绍国内外异常检测分析领域的相关研究和成果,研究异常检测分析技术实现过程中需要解决的若干关键技术,这些技术是支撑大数据平台系统安全的核心技术。大数据平台异常检测分析的若干方法及实现RADA系统的具体方法,能为产业界提供应用示范。本书中的多项工作已申请了发明专利。
本书作者与福建榕基软件股份有限公司合作,受福建省科技计划项目的资助,开展了“大数据平台异常检测分析的关键技术研发及产业化”(2016H7006)的立项研究,本书全面地总结了本项目的研究成果及拓展的主要内容。
本书虽然几易其稿,但是错误仍然不可避免。梅忠、李奕诺、彭行雄、丘志鹏、张锐、曾令、苏家威、陈雄等研究生同学对本书中的关键技术进行了编程实现,付出了努力,对本书部分内容的撰写也提供了很重要的帮助。电子工业出版社的王晓庆编辑为本书的出版做了大量的工作,对此深表感谢。最后,特别感谢我的家人对我的支持。
本书成书仓促,错误之处敬请各位读者批评指正。
肖如良
xiaoruliang@fjnu.edu.cn
2020年5月