论文部分内容阅读
数据挖掘是一种可以在数据库上挖掘有用信息的技术,这些信息被称为知识,所以数据挖掘又称知识发现。从大量数据中挖掘出的知识可用于决策支持、数据分析等领域,随着数据库的发展,数据挖掘已显得越来越重要。随着数据规模的不断增大,传统聚类分析方法难以发挥作用。聚类操作实际上是数据对象之间相似性的度量,相似度高的对象被归为一类。在低维空间中经常使用欧氏距离等函数来度量相似性,但在高维情况下由于相似性没有传递性,距离函数不再发挥作用,而高维数据的距离函数难于定义,因此必须重新考虑新的度量数据对象相似性的标准或准则。另外,由于维数很高,传统聚类算法的计算复杂度会很高,其应用也受到了很大的局限性。针对高维数据引起的“维度灾难”问题,本文研究了高维数据的特点,充分利用单维与多维的关系,提出了用单维来分割高维数据,并将数据进行整合,按维序逐次聚类的HDCA_SDP算法。在单个维上进行聚类时,采用索引转换技术来预处理数据,从而简化高维数据处理问题。该算法每次处理只针对一个维层次,经过层层处理,最终就能得到完整数据空间上的聚类。在HDCA_SDP算法的基础上,分析并整合了传统数据聚类算法K-means算法的几种改进算法,提出了适用于更高维空间的聚类算法DFBC。DFBC算法首先在高维数据空间上,将维划分为比较低的维组合,在这些维组合的数据空间上运用改进的K-means算法进行聚类,以维组合为层次,聚类过程是逐层进行的,这实际上跟单维分割聚类技术是相似的,所有层处理完之后就得到了最终的聚类结果。相比于单维分割聚类技术,使用维分组的聚类技术更适用于大型更高维的数据空间。该算法按照维组层次的增长,计算时间也是呈线性变化的,但是就算法的思想来说,它是低维聚类与高维聚类技术的一种折衷。本文还对网格的聚类技术进行了研究,分析了固定网格划分聚类与自适应网格划分聚类存在的缺陷,针对GCOD算法存在的缺陷,提出了一种改进的方法。GCOD算法主要采用了相交网格划分的措施,对固定网格划分与自适应网格划分技术采取了一种折衷的处理策略。但是GCOD算法未对相交网格的大小进行限制,使得这其中会存在许多不合理化聚类。我们针对这个问题提出了对网格大小进行限制的方法,并且提出了更加合理的密度计算方法。研究了子空间聚类的一些算法,针对经典算法CLIQUE存在的缺陷,提出了基于半相交网格划分的HIGSC算法。它首先利用半相交网格划分方法在单个维上进行聚类,然后利用类Apriori规则来形成子空间,在子空间形成的过程中运用类HDCA_SDP方法产生子空间上的聚类。算法的性能较CLIQUE算法有了提升,在聚类结果的精度方面提升明显。