改进K-means聚类算法的研究

被引量 : 0次 | 上传用户:qq345071009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的快速提升以及Web技术的兴起推动着数据信息的获取、存取向着自动化、快速化以及智能化发展。面对海量的、无规律的数据资源,数据挖掘技术应运而生。在数据挖掘研究中,聚类分析技术是其中一个重要的研究分支。聚类分析技术是一种无监督的、具有探索性的分类技术,它是在没有任何先验知识的前提下,将一个没有类别标识的数据集合进行划分,根据数据对象之间的相识度进行划分,结果是得到不同簇的集合。目前聚类分析技术应用在众多领域,如数据统计、电子商务、Web分析、生物医药、营销分析等。K-means算法是一个经典的聚类分析算法,算法基于划分技术,通过选取初始聚类中心将数据集进行合理的分类,根据生成的聚类的平均值来合理地调整聚类的中心点。算法通过多次迭代,最终实现簇内相似性最大,簇间相似性最小。K-means算法原理简单、容易实现,在对大规模数据集进行处理时具有较好的延展性和时间复杂度。但是,它仍存在许多的缺点,如:K-means算法对初始聚类中心的选择很敏感,中心的不当选择会造成聚类分析结果的较大误差;算法最终的分析结果往往是局部最优结果,但对于全局不是最优结果。此外,K-means算法需要事先给定初始聚类的个数k。本文以自适应特征权重和遗传算法为理论基础,解决了传统K-means算法中的部分不足,避免聚类分析结果陷入局部最优,有效提高算法的准确性和稳定性。针对传统K-means算法固定特征权重不灵活对初始聚类中心的选取有很大依赖性的缺点,可以按照属性重要程度越高,权值越大的原则对属性的权值进行调整,使人们可以清晰看出属性的重要级别。在不指定K值的前提下,算法根据数据对象密度的大小,在高密度集合中选取若干代表性的对象作为初始聚类中心,通过对准则函数的比较得出最优的K,算法在迭代的过程中依据簇类内尽可能相似、簇类间尽可能相异的准则变化属性的特征权重值。将遗传算法与自适应权重结合后运用在K-means算法上,对其进行改进,即在属性权重的基础上,用遗传算法的全局搜索能力来获得较优的聚类中心,最后使用K-means算法进行优化。这种方法能很好地降低K-means算法对初始中心的依赖性,提高算法的聚类效果。将此算法在实验数据集上进行试验后,并将其运用在聚类算法的应用领域之一的图像分割上,比较其分割效果。实验采用标准数据集对两个改进的算法进行验证,从准确率、迭代次数和聚类中心几个方面进行分析,并与传统K-means算法进行比较,证实了改进K-means聚类分析算法的高效性。
其他文献
本文在对国外农业旅游发展的典型模式进行比较分析基础上,总结国外农业旅游发展的成功经验为,加强法规建设及财政扶持,提供科技服务支撑,推进产品开发与整合营销,创造和谐社
本文运用扎根理论,对新生代农民工的创业行为和创业过程进行质性分析,探究新生代农民工的创业机理。结果表明,创业动机是新生代农民工创业的"启动阀",经济性、社会性和成就性
山东蔬菜出口竞争力在国内具有的优势地位突出,但发展中也存在众多制约因素,据此以波特"钻石模型"理论为依据对其制约因素进行了分析,并提从大力发展农村小额信贷业务,严格实
基质细胞衍生因子(SDF-1)可以与其受体CXCR4结合,形成SDF-1/CXCR4信号轴,并在调控干细胞/前体细胞定向迁移至靶器官,促进正常组织发育及损伤组织器官修复的病理生理过程中发
一部20多年前的影片,今天再来看,不仅没有过时之感,反而因为当前各类问题的凸现而更有现实意义。
本文在文献分析的基础上,结合浙江省海洋经济发展的实际,选取浙江省12个主要海洋产业作为分析对象,运用层次—赋值分析法对浙江省价值链驱动主导产业进行选择,确定浙江省海洋
收视率导向并非如一些人所认为的是民主的化身,那么,收视率导向的本质是什么呢?其实,就其最本质的意义而言,收视率是一种电视节目制作者用以向广告主介绍观众情况以便投放广
全日制专业学位硕士研究生作为硕士研究生中的新兴群体,尽管定位于高层次应用型人才注重专业性、实践性、应用性的培养,在理论上更贴近于用人单位的实际需求,但在实际培养过
在消费文化和快餐文化盛行的当下,随着影视娱乐化、商业化的不断推进,视觉化、读图时代已经到来,越来越多的文学作品尤其是文学名著被改变成影视作品搬上银幕,这其中包括对世
2013年以来,国家和众多部门联合出台了很多针对小微企业的扶持政策,如《引导银行业深化小微企业金融服务》、《关于完善和创新小微企业贷款服务,提高小微企业金融服务水平的