论文部分内容阅读
传统的聚类方法采用单一的聚类算法只能针对特定的数据集,如果数据集的真实分布,不符合预先给定的假设,则聚类结果往往不能反映数据集的真实分布情况。面对各种形状和结构的异构数据集,聚类集成通过对多个基聚类结果进行整合,能获得更好的平均性能,有效避免了单一聚类算法结果对噪声,孤立点,和抽样变化的敏感性等问题,能从多个基聚类中求解出一个新的聚类结果,这个结果优于任何一个基聚类的聚类结果。膜计算是生物计算领域的一个分支,膜计算模型又称为膜系统,膜系统是一种分布式且具有极大并行性的计算系统,很多研究表明,在理论上,很多简单的膜系统拥有与图灵机相媲美的计算能力,并可能在未来超过图灵机,膜计算的研究已成为生物计算中一个热门的研究方向。本文主要研究了聚类集成优化与膜计算,研究内容如下: (1)本文改进了基于K-means的聚类集成算法,针对已有的基于K-means的聚类集成算法(KCC)在进行聚类集成时对所有聚类成员公平对待,而没有考虑到不同成员对结果贡献程度不一样的问题,本文设计了基于互信息理论(NMI)的集成成员权重度量方法,根据聚类成员与其它所有成员的互信息程度设计了权重,提出了WIKCC算法,并通过实验表明,改进后的算法的聚类精确度得到了提高。 (2)其次,本文改进了基于遗传算法的聚类集成算法(CEGA),针对CEGA算法在集成时以基聚类的类别标签作为染色体的编码方式,本文提出了一种基于微簇的编码方式,将聚类成员中每次被分到同一个簇中的所有数据点看成一个微簇,即当成同一个数据样本进行处理,以避免他们在变异和交叉过程中被分离,以此来提高算法的精确度,并采用分类标号对微簇进行染色体编码,最后设计了膜结构与膜规则实现了改进的算法,提出了基于GA的膜进化算法(GMEAEC)用于聚类集成,最后通过实验表明改进后算法的聚类质量得到提高,并且以不同的基聚类进行集成验证了该算法的鲁棒性高于其它对比算法。 (3)本文将提出的WIKCC算法其应用在图像分割,以图像的颜色特征作为属性特征,图像分割的目的是从图片中提取出有用信息,本文以实物与背景的分离程度来度量算法的有效性,我们将WIKCC算法与KCC,以及K-means算法对比,从分割的视觉效果上看,实验结果表明WIKCC算法的分割结果明显优于其它两个算法。 (4)最后本文将GMEAEC算法应用智能导诊中的口腔疾病数据聚类中,采用目前适用于Python的最好分词工具结巴分词对文本数据集进行分词,并使用TF-IDF进行数据向量化,最后以准确率,召回率,F1-measure来度量聚类的综合效果,以算法运行的时间来度量聚类的效率,实验表明本文提出的算法应用在口腔疾病数据聚类中的聚类质量和效率均优于其他算法。