上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
4.6 本章小结
为了提高大规模分布式日志数据集上日志序列分析的效率,本章提出一种分布式日志最大频繁序列挖掘的SparkMFPs算法。与现有的算法不同,该算法首先利用Spark分布式计算框架,通过各节点递归并行挖掘局部最大频繁序列模式,其中在构建后缀投影数据库时删除非频繁项,减小了投影数据库的规模,同时在递归挖掘时利用向前扩展的一致性检测避免了局部冗余的产生,提高了最大频繁序列模式挖掘的效率;然后,提出了一种对各节点进行结果集成从而获取全局最大频繁序列的算法,利用相邻长度的频繁序列进行超集检测,高效率地提取出所需的序列模式;最后,在日志数据集上验证了SparkMFPs算法的有效性和执行效率。
本章提出的SparkMFPs算法也存在一些不足,在挖掘分布式日志最大频繁序列模式时,没有特别考虑日志数据集的时间特性,在下一步工作中,需进一步利用日志数据集的时间效应改进算法,并进一步把该算法应用到真实的场景用户异常检测中。