论文部分内容阅读
数据挖掘(Data Mining)是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解模式的非平凡过程。其应用于网络环境中则称为Web数据挖掘(Web Data Mining)。Web数据挖掘是从Web中相关资源和用户浏览行为中抽取感兴趣的、有用的模式和隐含的信息。Web使用挖掘是Web数据挖掘的一种,挖掘的对象是用户在Web服务器上的信息,通过用户兴趣建模算法建立用户兴趣模型,挖掘用户兴趣,为用户提供更好的浏览体验。在众多的建模方法中关联规则和马尔可夫模型是两种非常重要的建模方法。本文对关联规则以及马尔可夫模型的相关算法进行系统的分析和总结,然后再此基础之上提出了新的建模方法:首先,提出了基于最大频繁项目集的事务间关联规则的挖掘算法,由改进的Mafia算法,得到最大频繁项目集的同时得到对应的共有用户集,对事务内到事务间最大频繁项目集的转换,分析不同用户之间的关系及用户对网站上不同网页的访问情况,直接发现不同用户之间的关联关系来预测用户的兴趣。该方法经实验证明能够更加全面的预测用户感兴趣的网页,更好的为用户提供个性化服务。其次,在基于最大频繁项目集的挖掘事务间关联规则的算法的基础之上,结合两种建立用户数据库的方法,提出基于二阶马尔可夫模型与事务间关联规则的用户兴趣预测模型。另外,本文以用户指向思想为核心,通过分析用户之间的关系从而映射到有相同兴趣用户所对应的数据上,使找到的结果相对之前数据指向的结果更加符合用户的需求。改进的Mafia算法,使得这种最大频繁项目集的算法能够记录找到的最大频繁项目集中的项目在原数据中事务号的交集,从而方便使这种算法作用于事务间关联规则成为可能。加入马尔可夫模型,将事务间关联规则与2阶马尔可夫模型的结合起来,使事务间关联规则的挖掘结果准确性大幅度提高。在实际问题中,不同数据之间存在着一定的联系,关联规则就是用来找到这些联系的方法。但是随着数据量的增多,数据冗余和结果准确度之间的矛盾凸显,所以采用事务间关联规则来完善结果的准确性,同时加入马尔可夫模型的方法来解决数据冗余的问题,通过实验证这种结果是有效的。