论文部分内容阅读
聚类分析是数据挖掘中一个重要的研究分支,已在多个领域得到了很好的应用,诸如模式识别,数据分析和图像处理等。随着实际应用中数据的大量产生,数据的属性类型不再是单一类型为主,而是混合属性为主。在对混合属性的处理中,虽然有k-prototype等经典算法,也有基于离散化数值属性算法,但效果总是差强人意。前者简单把两个属性相似度相加,后者不考虑数值属性的顺序问题。这显然影响其结果。 我们基于模糊集理论,提出了一种模糊离散化的方法,让数值属性在离散化后还保留部分序的信息,更好地对不同类型属性进行信息融合。然后基于信息熵理论提出一种自底向上的层次聚类算法。 本文主要包含以下几个方面的内容: 1.聚类分析理论。主要介绍了聚类分析的定义、数据对象间的相似度度量方法、聚类挖掘的常见方法及聚类结果的评估标准。 2.对模糊集、信息熵的相关理论进行介绍。 3.对一种确定最佳聚类数的Gap Statistic方法进行介绍。 4.基于模糊集和信息熵提出一种层次的聚类算法MHC—BFI。先通过k-means进行聚类,对数值属性找到基于分布的离散化的离散点,把这些点作为模糊集的元素,将数属性模糊离散化到模糊集中;再用基于信息熵的层次聚类算法进行聚类。最后,我们用UCI中的数据集对我们算法进行了验证,说明我们算法是有效的。