论文部分内容阅读
多关系数据挖掘(MRDM:Multi-Relational Data Mining)的研究领域涉及多个学科,它在由多张表构成的关系数据库中进行知识发现。挖掘由复杂/结构化对象构成的数据也属于该研究范畴,因为在一个关系数据库中,要把这些目标数据进行标准化表述需要用到多张表。多关系数据挖掘旨在将一些已存在的并较为成熟的学科知识整合在一起,如归纳逻辑程序设计(ILP:Inductive Logic Programming),知识发现(KDD),机器学习,关系数据库等等,以此来为挖掘多关系的数据生成新的方法,并为这些新的方法生成可用于实践的应用软件。 传统的数据挖掘算法是在数据库的一张单一的表中查找模式。然而在现实应用中,把多张表中的数据挤压进一张表需要花费大量的心思和工夫,而且还可能造成信息的丢失。现在,多关系数据挖掘的时代已经来临了。 本文在传统数据挖掘的算法基础上对多关系数据挖掘的主要研究方法进行了介绍和比较,然后从分类的效率和正确率出发,对各种基于贝叶斯原理的方法进行了仔细研究并将之应用到多关系数据挖掘中。 第一章是绪言,首先简要介绍了多关系数据挖掘的定义,然后根据它的研究意义和研究范畴分析了它的应用现状。最后是论文的组织结构。 第二章对传统数据挖掘技术的概念,过程以及一些分析方法进行了综述。 第三章介绍了多关系数据挖掘技术的常用方法,包括ILP、多关系关联规则、多关系分类、多关系聚类等等。 第四章开始对多关系数据挖掘中的分类算法展开了仔细研究。本章主要是运用各种贝叶斯方法到多关系分类的规则连接中,先后讨论了朴素贝叶斯、TAN、DLBAN各自的优缺点,并用CLP实现了完整的贝叶斯分类器。 第五章提出了一种基于语义关系图的多关系朴素贝叶斯分类器,该方法将三种技术:语义关系图,元组标识传播,多关系朴素贝叶斯相互融合,共同实践应用到多关系的分类算法中,再经实验证实了它的高效性和高正确率。 第六章是对全文的总结和对未来研究工作的展望。