论文部分内容阅读
信息技术的快速提升以及Web技术的兴起推动着数据信息的获取、存取向着自动化、快速化以及智能化发展。面对海量的、无规律的数据资源,数据挖掘技术应运而生。在数据挖掘研究中,聚类分析技术是其中一个重要的研究分支。聚类分析技术是一种无监督的、具有探索性的分类技术,它是在没有任何先验知识的前提下,将一个没有类别标识的数据集合进行划分,根据数据对象之间的相识度进行划分,结果是得到不同簇的集合。目前聚类分析技术应用在众多领域,如数据统计、电子商务、Web分析、生物医药、营销分析等。K-means算法是一个经典的聚类分析算法,算法基于划分技术,通过选取初始聚类中心将数据集进行合理的分类,根据生成的聚类的平均值来合理地调整聚类的中心点。算法通过多次迭代,最终实现簇内相似性最大,簇间相似性最小。K-means算法原理简单、容易实现,在对大规模数据集进行处理时具有较好的延展性和时间复杂度。但是,它仍存在许多的缺点,如:K-means算法对初始聚类中心的选择很敏感,中心的不当选择会造成聚类分析结果的较大误差;算法最终的分析结果往往是局部最优结果,但对于全局不是最优结果。此外,K-means算法需要事先给定初始聚类的个数k。本文以自适应特征权重和遗传算法为理论基础,解决了传统K-means算法中的部分不足,避免聚类分析结果陷入局部最优,有效提高算法的准确性和稳定性。针对传统K-means算法固定特征权重不灵活对初始聚类中心的选取有很大依赖性的缺点,可以按照属性重要程度越高,权值越大的原则对属性的权值进行调整,使人们可以清晰看出属性的重要级别。在不指定K值的前提下,算法根据数据对象密度的大小,在高密度集合中选取若干代表性的对象作为初始聚类中心,通过对准则函数的比较得出最优的K,算法在迭代的过程中依据簇类内尽可能相似、簇类间尽可能相异的准则变化属性的特征权重值。将遗传算法与自适应权重结合后运用在K-means算法上,对其进行改进,即在属性权重的基础上,用遗传算法的全局搜索能力来获得较优的聚类中心,最后使用K-means算法进行优化。这种方法能很好地降低K-means算法对初始中心的依赖性,提高算法的聚类效果。将此算法在实验数据集上进行试验后,并将其运用在聚类算法的应用领域之一的图像分割上,比较其分割效果。实验采用标准数据集对两个改进的算法进行验证,从准确率、迭代次数和聚类中心几个方面进行分析,并与传统K-means算法进行比较,证实了改进K-means聚类分析算法的高效性。