基于P系统的聚类集成问题研究及应用

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:baozhuangpms
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的聚类方法采用单一的聚类算法只能针对特定的数据集,如果数据集的真实分布,不符合预先给定的假设,则聚类结果往往不能反映数据集的真实分布情况。面对各种形状和结构的异构数据集,聚类集成通过对多个基聚类结果进行整合,能获得更好的平均性能,有效避免了单一聚类算法结果对噪声,孤立点,和抽样变化的敏感性等问题,能从多个基聚类中求解出一个新的聚类结果,这个结果优于任何一个基聚类的聚类结果。膜计算是生物计算领域的一个分支,膜计算模型又称为膜系统,膜系统是一种分布式且具有极大并行性的计算系统,很多研究表明,在理论上,很多简单的膜系统拥有与图灵机相媲美的计算能力,并可能在未来超过图灵机,膜计算的研究已成为生物计算中一个热门的研究方向。本文主要研究了聚类集成优化与膜计算,研究内容如下:  (1)本文改进了基于K-means的聚类集成算法,针对已有的基于K-means的聚类集成算法(KCC)在进行聚类集成时对所有聚类成员公平对待,而没有考虑到不同成员对结果贡献程度不一样的问题,本文设计了基于互信息理论(NMI)的集成成员权重度量方法,根据聚类成员与其它所有成员的互信息程度设计了权重,提出了WIKCC算法,并通过实验表明,改进后的算法的聚类精确度得到了提高。  (2)其次,本文改进了基于遗传算法的聚类集成算法(CEGA),针对CEGA算法在集成时以基聚类的类别标签作为染色体的编码方式,本文提出了一种基于微簇的编码方式,将聚类成员中每次被分到同一个簇中的所有数据点看成一个微簇,即当成同一个数据样本进行处理,以避免他们在变异和交叉过程中被分离,以此来提高算法的精确度,并采用分类标号对微簇进行染色体编码,最后设计了膜结构与膜规则实现了改进的算法,提出了基于GA的膜进化算法(GMEAEC)用于聚类集成,最后通过实验表明改进后算法的聚类质量得到提高,并且以不同的基聚类进行集成验证了该算法的鲁棒性高于其它对比算法。  (3)本文将提出的WIKCC算法其应用在图像分割,以图像的颜色特征作为属性特征,图像分割的目的是从图片中提取出有用信息,本文以实物与背景的分离程度来度量算法的有效性,我们将WIKCC算法与KCC,以及K-means算法对比,从分割的视觉效果上看,实验结果表明WIKCC算法的分割结果明显优于其它两个算法。  (4)最后本文将GMEAEC算法应用智能导诊中的口腔疾病数据聚类中,采用目前适用于Python的最好分词工具结巴分词对文本数据集进行分词,并使用TF-IDF进行数据向量化,最后以准确率,召回率,F1-measure来度量聚类的综合效果,以算法运行的时间来度量聚类的效率,实验表明本文提出的算法应用在口腔疾病数据聚类中的聚类质量和效率均优于其他算法。
其他文献
随着IT应用的深入,IT与业务的关联越来越紧密,但IT也面临着越来越多的问题,如何确保业务需求与信息技术之间的一致性,是企业能否从IT应用中获取竞争优势的现实关键问题。现有研究
现阶段精准扶贫中精准职业教育的主要存在形式:政府主导下的企业参与的、精准扶贫干部参与的、职业教育师资队伍参与的、职业教育院校参与的职业教育;企业主导下对职业教育;
德国职业继续教育是服务再教育与再培训的重要手段.通过坚持突出重点群体的培训需求,注重调查研究和可行性评估,构建开放灵活的职业继续教育办学体系等举措,保障了技能人才队
本文希望通过从项目管理的角度对仿真系统的开发过程作一个比较全面的分析和研讨,目的是把项目工程管理的知识与本单位的软件工程实践和理论体系相结合,找出核电站仿真软件工程
随着时间要素在竞争中越来越重要,基于时间的竞争成为管理学界关注的热点。而物流研究的核心问题便是如何用更低的费用、更短的时间把物品移动到目的地,所以成本和时间一直是物
组织单元是指,为了实现特定的目标而有意识地结合在一起的具有一定组织结构的社会和物质群体。在数据包络分析(Data envelopment analysis,DEA)理论中,组织单元亦被称为决策单元
信息产业是21世纪世界经济的主导产业和支柱产业,而微电子产业是信息产业的基础,它影响面广,后续产业链长,具有极为重要的战略地位。据统计,微电子产业中的集成电路每1元的产值,可