论文部分内容阅读
聚类分析作为无监督模式识别的一个重要分支已经成为现代数据分析的一个重要工具.不同的初始条件和聚类标准通常会导致不同的聚类算法.因此,聚类算法是一个内容庞杂的算法族.到目前为止,人们提出了各种各样的聚类算法.
模糊C均值算法由于简单有效成为最受关注的模糊聚类算法之一.该算法及其推广算法已被成功应用到很多领域.这些方法的共同点是通过反复迭代计算最优分类(如聚类中心).因此,它们敏感于初始聚类中心及噪声点,而且这些方法只能检测预先给定个数的球状结构模式的聚类.然而,很多情况下聚类中心并非真实存在.为了便于处理任意形状结构模式的聚类,本文提出一种无需聚类中心的新的模糊聚类算法(CCFR-FCM).该方法通过定义样本点与各聚类间的模糊相似性函数来确定各样本所属的类别.为了确定数据集包含的聚类个数,我们建立与CCFR-FCM方法相适应的聚类有效性指标.
层次聚类算法是另一类应用较为广泛的聚类方法.它能够把样本集的多种分类结果全部展示出来,但是从这些分类结果中获得用户最满意的分类情况就成了一个问题.众所周知,层次聚类中的每一种分类结果都对应某个模糊λ水平截集.因此,选择最优分类结果的问题就转化成最优阈值λ*的选取问题.本文从相似性关系出发,建立了一个能够体现聚类类内致密性和类间分离性的有效性函数来选取层次聚类的最优阈值.
在人工和实际数据集上的实验都表明了新算法及新的有效性指标函数的有效性.