论文部分内容阅读
数据挖掘是一个比较广泛的概念,它包括各种从大量的数据中发现模式的方法。它所包括模式主要有关联规则、分类、聚类、序列模式等等。关联规则的挖掘是数据挖掘中的一项重要和基础的技术,已进行了多方面的深入研究,有着广泛的应用。
目前,大多数数据挖掘方法是从单关系中寻找模式,但是现实中的数据大多以多关系的形式存在。多关系数据挖掘已经成为近年来快速发展的重要的数据挖掘领域之一。传统的数据挖掘方法只能完成单一关系中的模式发现,多关系数据挖掘能够从复杂结构化数据中发现涉及多个关系的复杂模式。
通过分析,我们发现将传统的单表关联规则挖掘算法进行扩展,用于发现多表关联规则时会遇到若干问题,我们将其总结为2类:性能问题,统计偏斜问题。
本文为了解决这种多表物理连接所引起的这些问题,提出了一种新的多关系关联规则算法——基于虚拟连接的多关系关联规则算法(Multi-Relational Association Rules based Virtual Join,MARVJ)。通过实验证明,该算法可以在具有良好压缩效果的虚拟连接表(Virtual Join table)上,挖掘出没有统计偏斜的多关系关联规则。
本文所做工作的成果和创新有:
(1)提出了计算多关系关联规则支持度与置信度的方法,并从理论上证明可以避免统计偏斜。
(2)借鉴元组ID传播的思想,提出元组属性传播的概念,并利用该方法构建虚拟连接表。实验证明在保证原有数据分布不被破坏的情况下,相对于传统泛关系连接表有明显的数据压缩效果。
(3)提出并实现了基于这种虚拟连接表的,可以避免统计偏斜问题的多关系关联规则算法(MARVJ算法)。