论文部分内容阅读
从海量数据中发掘潜藏的、有效的、有价值的信息,为金融业、房地产等行业提供信息和决策,这个过程称为数据挖掘。聚类分析是数据挖掘中最重要的方法之一,k-means算法是聚类分析中最简单和最基础的方法。k-means算法有操作简单、速度快、处理大数据有良好的伸缩性等优点,但在数据处理时也时常暴露出致命的缺陷。 鉴于k-means算法暴露的一些缺陷,本文主要从三个方面进行改进和分析。1)针对欧氏距离对变量同等对待的特点,本文提出了变异系数法加权。通过与主观经验加权方法的数据应用对比,证明了变异系数法加权欧氏距离可行性和合理性,为实际处理数据提供了方法和依据。2)针对k-means算法中k值模糊性和主观性,提出了使用距离代价函数来确定准确的k值。3)针对k-means算法中初始值的随机选取,利用样本数据分布和贪心思想构造了一种寻找初始值的算法,并给出算法的程序。最后将改进的k-means算法初始值算法应用于数据实例中,从聚类结果、类内距离和类间聚类总和、迭代次数和初始中心点与最终聚类中心点变化程度多个角度分析得出了:改进后的k-means算法比传统k-means算法都有优越性。