论文部分内容阅读
数据挖掘(Data Mining)是人工智能与数据库领域当前研究的一个热点,引起了大量学者与专家的关注。在众多的数据挖据的方向中,属性约简是其中的一个重要研究课题。一个原始的数据库中有许多记录,而且需要一定数量的属性对这些记录进行描述。如果直接对这样的原始数据库进行数据挖掘,其工作量非常大。而如果先对原始数据库进行属性约简,从原始的属性中,根据用户的需求提取出一部分有代表性的属性子集,那么就能为以后的数据挖掘工作减少了许多工作量,同时能使后面的数据挖掘工作更有针对性。
本文首先介绍了现有的数据挖据技术,并分析了目前国内外属性约简的理论与方法,指出了现有的属性约简模式挖掘方法的成果与不足。针对存在的不足,提出了一些新的想法与新的见解,并通过实验验证了所提出的新方法的可行性与有效性。本论文的主要工作分三部分展开:
(1)阐述属性约简问题及其现有的属性约简方法,分析它们的优缺点。
(2)基于聚类的属性约简方法的研究与实现。
针对现有的属性约简方法在约简的过程中与用户的交互过程太少的问题,提出了属性距离的定义及其基于聚类的约简方法。该部分工作对应于论文的第三章,首先给出了属性依赖度和相对依赖度的定义,然后根据用户给定参数,根据由属性相对依赖度计算出的属性距离对属性进行聚类,将区分能力相似的属性聚集到同一个类中,最后从每个类中选取出属性组成约简属性集。
(3)提出几种属性集质量评估模式。
目前对约简属性集的评价仅仅限于属性集的区分能力的强弱。但是评价一个属性集的好坏应该看它是否满足用户的要求。能满足用户需求的属性集才是一个合格的属性集。所以我们应该为用户提供更多的评估模式,让用户能从各个方面去选取合适的约简属性集,在第四章中,我们提出了几种属性集质量的评估模式,分别从区分准确度、平衡度、强壮度和相似度几个方面对属性集给出客观的评估。
本文提出的方法力求改进现有算法的不足,同时拓宽属性约简的研究范围。对于提出的两个研究工作,我们都在真实数据库与合成数据库上进行了为数不少的实验,实验结果表明:
<1>基于聚类的属性约简方法比以往的属性约简方法有更好的交互性能。通过用户对参数的指定,约简出接近用户需求的属性集。
<2>通过几种属性集质量评估模式,能从各个方面去了解属性集。