基于虚拟连接的多关系关联规则算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:kikuL
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一个比较广泛的概念,它包括各种从大量的数据中发现模式的方法。它所包括模式主要有关联规则、分类、聚类、序列模式等等。关联规则的挖掘是数据挖掘中的一项重要和基础的技术,已进行了多方面的深入研究,有着广泛的应用。   目前,大多数数据挖掘方法是从单关系中寻找模式,但是现实中的数据大多以多关系的形式存在。多关系数据挖掘已经成为近年来快速发展的重要的数据挖掘领域之一。传统的数据挖掘方法只能完成单一关系中的模式发现,多关系数据挖掘能够从复杂结构化数据中发现涉及多个关系的复杂模式。   通过分析,我们发现将传统的单表关联规则挖掘算法进行扩展,用于发现多表关联规则时会遇到若干问题,我们将其总结为2类:性能问题,统计偏斜问题。   本文为了解决这种多表物理连接所引起的这些问题,提出了一种新的多关系关联规则算法——基于虚拟连接的多关系关联规则算法(Multi-Relational Association Rules based Virtual Join,MARVJ)。通过实验证明,该算法可以在具有良好压缩效果的虚拟连接表(Virtual Join table)上,挖掘出没有统计偏斜的多关系关联规则。   本文所做工作的成果和创新有:   (1)提出了计算多关系关联规则支持度与置信度的方法,并从理论上证明可以避免统计偏斜。   (2)借鉴元组ID传播的思想,提出元组属性传播的概念,并利用该方法构建虚拟连接表。实验证明在保证原有数据分布不被破坏的情况下,相对于传统泛关系连接表有明显的数据压缩效果。   (3)提出并实现了基于这种虚拟连接表的,可以避免统计偏斜问题的多关系关联规则算法(MARVJ算法)。
其他文献
表格结构作为一种简洁有效的数据信息表达方式,在各种领域的Web页中都得到了广泛的应用。但因其形式及功能的多样性,给基于表格结构的Web信息提取带来了巨大的挑战,主要体现
近年来,随着Internet的迅速发展,XML已经成为网络上数据描述和数据交换事实上的标准。网络上信息的本质特性和XML内在的灵活性,使得XML非常适合用来作为网络上数据的载体。因此,
在计算机与网络信息技术飞速发展的今天,各个领域的信息与数据急剧增加,并且由于人类的参与使数据与信息中的不确定性更加显著,信息与数据中的关系更加复杂。如何从大量的、
Subversion(SVN)是一种开放源码、多用户版本控制系统,支持通过本地或远程访问数据库和文件系统存储库。不但提供了常见的比较、合并、标记、提交和分支功能,Subversion还增加了
煤炭是我国的基础能源,是关系国家经济命脉的重要基础产业,同时我国煤矿地质条件复杂,是世界上灾害严重、事故多发的国家。现在大多数煤矿都安装了瓦斯监控系统,积累了大量的
韶山8型电力机车是用于我国电气化铁路干线的一种快速客运机车,在中国铁路历次大提速中发挥了重要作用。电气线路是电力机车最重要的组成部分,也是机车中最复杂、最难学习掌握