论文部分内容阅读
随着Internet的高速发展,Web上已积累了海量的数据和信息,其中蕴含着巨大的商业价值。为了充分利用这一庞大的信息资源,人们将数据挖掘技术应用到Web领域中,形成了一个崭新的研究领域--Web挖掘。
Web挖掘大量运用了数据挖掘领域的理论和方法。其中,挖掘频繁模式是较常用且较为关键的一项技术。然而,传统的频繁模式挖掘方法产生的模式数量巨大,造成理解和应用上的困难。特别是在Web这一特定的海量的数据环境中,其对整个挖掘过程的效率影响更是严重。为此,国内外的学者提出挖掘频繁模式的子集取代完全频繁模式,频繁闭合模式就是其中研究较多的一种。频繁闭合模式是频繁模式的一种无损压缩形式,它在数量上往往比频繁模式小几个数量级,但又同时保留了频繁模式的所有有用信息。因此,挖掘频繁闭合模式是一种比挖掘频繁模式更有效,更具操作性的数据挖掘方式。
本文主要研究的是频繁闭合模式的挖掘以及其在Web使用挖掘中的应用。论文首先对Web挖掘、Web使用挖掘的相关理论,以及频繁模式挖掘在Web使用挖掘中的重要作用进行了阐述。接着介绍了频繁闭合模式的概念,以及现有的一些挖掘算法,对其在闭合性检查方法上的不足进行了分析。针对这些不足,提出了一种新的闭合性检查方法,并在此基础上,对原算法进行改进。实验表明,具有良好的效果。
本文最后阐述了基于频繁闭合模式的Web使用挖掘方法,对频繁闭合模式在降低关联规则冗余性方面的作用进行了分析,并对Web使用挖掘的重要应用--Web个性化服务进行了研究。