K-means算法若干改进和应用

来源 :中南大学 | 被引量 : 0次 | 上传用户:daluo13613152523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从海量数据中发掘潜藏的、有效的、有价值的信息,为金融业、房地产等行业提供信息和决策,这个过程称为数据挖掘。聚类分析是数据挖掘中最重要的方法之一,k-means算法是聚类分析中最简单和最基础的方法。k-means算法有操作简单、速度快、处理大数据有良好的伸缩性等优点,但在数据处理时也时常暴露出致命的缺陷。  鉴于k-means算法暴露的一些缺陷,本文主要从三个方面进行改进和分析。1)针对欧氏距离对变量同等对待的特点,本文提出了变异系数法加权。通过与主观经验加权方法的数据应用对比,证明了变异系数法加权欧氏距离可行性和合理性,为实际处理数据提供了方法和依据。2)针对k-means算法中k值模糊性和主观性,提出了使用距离代价函数来确定准确的k值。3)针对k-means算法中初始值的随机选取,利用样本数据分布和贪心思想构造了一种寻找初始值的算法,并给出算法的程序。最后将改进的k-means算法初始值算法应用于数据实例中,从聚类结果、类内距离和类间聚类总和、迭代次数和初始中心点与最终聚类中心点变化程度多个角度分析得出了:改进后的k-means算法比传统k-means算法都有优越性。
其他文献
概念格理论,亦称形式概念分析,由德国数学家Wille R于1982年提出,是一种高效的处理数据分析和知识发现的数学工具.自上世纪九十年代以来,它在理论上不断完善,在应用上广泛扩
支持向量机(SVM)是数据挖掘领域的一种新方法、新技术.它适用小样本、非线性和高维的模式识别领域,主要解决分类问题与回归问题.由于其良好的泛化能力,支持向量机在这些方面取
自1998年Yann LeCun等人提出首个较为成熟的卷积神经网络(LeNet-5)以来,卷积神经网络就受了工业界和研究界的极大的关注,但由于当时的内存和硬件的限制无法得到广泛的应用.近几年来,随着GPU的大量使用和深度学习的进一步发展,卷积神经网络在图像、字符、语音等方面获得了很多突破性的成果.本文研究了卷积神经网络的理论、结构、训练以及经典的模型,并且在经典的卷积神经网络的损失函数的基础上加上
学位
摘 要:近年来,随着我国经济的发展,国家加大了对天然气基础性建设的投资力度,天然气消费保持持续增长的趋势。随着人们生活水平的提高,天然气以其清洁、高效、便利的优势条件,将会成为未来能源消耗的主要方式。  关键词:天然气 ;利用 ; 消费 ;发展趋势  1. 天然气发展现状  1.1 天然气消费量显著增长  近十年来天然气消费量呈现出不端增长趋势,年均增长近50亿立方米,年均增长超过15.6%。近几