论文部分内容阅读
目前,股票交易、路况实时监控和网络入侵检测等领域产生了海量的、按照时间持续到达的、实时动态变化的数据流。鉴于数据流不同于传统静态数据集,因此适合传统静态数据集挖掘的聚类算法已不能对其有效聚类。所以众多专家根据数据流的特点,研发了许多面向数据流的聚类算法。其中,基于密度的数据流聚类算法DenStream由于能够发现任意形状簇和有效处理离群点,得到广泛应用。但是,该算法既不支持分布式并行计算,又不支持指定时间窗口内实时数据流的演化分析,因此需要进一步改进,以提高算法的性能。针对DenStream算法不支持分布式并行计算的缺点,提出了分布式数据流聚类算法D-DenStream,将算法分成微簇初始化、在线微簇维护和离线聚类三个步骤执行,其中在线微簇维护包括局部点实时更新和全局点合并两个阶段,在各局部点实时并行更新微簇,以实现分布式并行计算,在全局点合并微簇,以得到全局微簇。然后为了提高D-DenStream算法的处理效率,将其部署到Storm集群环境中。最后设计对比实验验证D-DenStream算法的聚类质量和处理效率。实验结果表明,D-DenStream算法具有同DenStream算法相近的聚类质量,但处理效率提升了2倍。针对DenStream算法不支持指定时间窗口内实时数据流的演化分析的缺点,提出了基于倾斜时间窗口的数据流聚类算法TTW-DenStream,将倾斜时间窗口应用到算法中,以实现指定时间窗口内实时数据流的演化分析。然后提出了TTW-DenStream算法的分布式实现方案,并部署到Storm集群环境中,以提高算法的处理效率。最后设计实验验证算法的有效性,实验结果表明,TTW-DenStream算法能够实时聚类数据流,产生的聚类结果能够实现演化分析。将TTW-DenStream算法应用到出租车载客热点的分析中,通过对北京市出租车GPS数据集的实验表明,聚类结果支持演化分析,能够发现出租车的载客热点的分布。综上所述,本文研究并改进了基于密度的数据流聚类算法DenStream,然后将改进后的算法部署到具有低延迟、高容错、高可靠和可扩展的分布式实时计算系统Storm上,以提高算法的处理效率,最后设计实验验证改进算法的优势和有效性,并将TTW-DenStream算法应用到出租车载客热点的分析中。