基于频繁模式的Web使用挖掘技术及应用研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:shnoonkids
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的高速发展,Web上已积累了海量的数据和信息,其中蕴含着巨大的商业价值。为了充分利用这一庞大的信息资源,人们将数据挖掘技术应用到Web领域中,形成了一个崭新的研究领域--Web挖掘。 Web挖掘大量运用了数据挖掘领域的理论和方法。其中,挖掘频繁模式是较常用且较为关键的一项技术。然而,传统的频繁模式挖掘方法产生的模式数量巨大,造成理解和应用上的困难。特别是在Web这一特定的海量的数据环境中,其对整个挖掘过程的效率影响更是严重。为此,国内外的学者提出挖掘频繁模式的子集取代完全频繁模式,频繁闭合模式就是其中研究较多的一种。频繁闭合模式是频繁模式的一种无损压缩形式,它在数量上往往比频繁模式小几个数量级,但又同时保留了频繁模式的所有有用信息。因此,挖掘频繁闭合模式是一种比挖掘频繁模式更有效,更具操作性的数据挖掘方式。 本文主要研究的是频繁闭合模式的挖掘以及其在Web使用挖掘中的应用。论文首先对Web挖掘、Web使用挖掘的相关理论,以及频繁模式挖掘在Web使用挖掘中的重要作用进行了阐述。接着介绍了频繁闭合模式的概念,以及现有的一些挖掘算法,对其在闭合性检查方法上的不足进行了分析。针对这些不足,提出了一种新的闭合性检查方法,并在此基础上,对原算法进行改进。实验表明,具有良好的效果。 本文最后阐述了基于频繁闭合模式的Web使用挖掘方法,对频繁闭合模式在降低关联规则冗余性方面的作用进行了分析,并对Web使用挖掘的重要应用--Web个性化服务进行了研究。
其他文献
工程项目文化建设是工程项目管理的重要内容之一。本文通过对条件反射理论的深入研究和提炼并将其结合工程项目的特点,系统的探讨了工程项目文化建设的问题,力图为项目文化建设
近年来农产品供应链风险管理的研究成为一个热点。农产品供应链风险可分为技术风险、协调组织风险和质量风险。其中引起协调组织风险的因素有利益诱因失调、信息不对称以及信
学位
在全球经济一体化形势下,我国的上市公司积极实施“走出去”战略,在国外参股控股、新建或收购一些企业;同时,由于我国市场潜力巨大,许多外国公司加大投资,成为上市公司的股东,
学位