数据挖掘聚类算法的分析和应用研究

被引量 : 0次 | 上传用户:zhoubo1204
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。聚类的应用是非常广泛的,无论是在商务上,还是在市场分析、生物学、Web文档分类等领域中都得到了充分的应用。目前,聚类算法大体上分为划分的方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。这些算法存在如下的问题:符号属性问题、算法的效率问题、初值的选择问题、对输入顺序的敏感性问题、最优解问题、算法对输入参数的依赖性问题。DBSCAN就是一种基于密度的方法,该算法的显著优点是速度快,可以发现任意形状的聚类和噪声点。但是当数据量非常庞大时,该算法对主存要求较高;而且需要定义一个全局变量Eps,如果这个全局变量Eps定义的不好,将会影响聚类质量,尤其是数据分布不均匀时,因此DBSCAN对输入参数Eps是十分依赖的。论文在分析这些不足的基础上,对DBSCAN算法进行了改进,把“分而治之”的思想应用到该算法中。聚类前,先把数据划分成一个个网格,然后把网格分配给多个处理机进行并行聚类,最后再对各个处理机的局部聚类结果进行合并。这样,一方面降低了对主存的要求;另一方面,当数据分布不均匀时,全局变量Eps也不会影响聚类质量,因为每个网格采用单独的Eps值;并且把每个网格分到单独的处理机上进行并行聚类提高了聚类效率。试验表明,改进后的DBSCAN算法降低了对主存的要求和对输入参数Eps的依赖。K-means算法是一种基于划分的聚类算法,它把n个对象划分成K个类,其中的聚类数目K是输入参数。该算法是通过不断地迭代来进行聚类,当算法收敛到一个结束条件时,就终止迭代过程,输出一个聚类结果。但是由于K-means算法在选择初始聚类中心时是随机选取K个点,因此一旦这K个点选取不合理,将会误导聚类过程,得到一个不合理的聚类结果。论文在分析聚类结果对初值依赖性的基础上,对初值选取方法进行了分析和研究,采取“射靶”的原理进行类中心的搜索。从实际应用中可以发现,改进后K-means得到的聚类结果更加稳定,对初始聚类中心的依赖性减弱了。最后,在这些工作基础之上,作者将聚类算法应用到重庆医药公司的药品销售数据中,对药品销售数据进行聚类,验证改进算法的有效性和正确性。
其他文献
随着我国加入WTO,中国医药产业融入国际医药大市场已成为必然趋势,面临的市场竞争将日趋激烈。医药产业作为技术密集型产业,人才的竞争将是市场竞争中的关键,人力资源管理将是民
文章从空间转向的理论基础——空间生产理论入手,介绍国外空间理论研究成果以及国内图书馆空间理论研究的代表性观点,从空间理念变迁的视角分析图书馆服务从空间中的生产到空
本文并提出和论证了政策过程现代化的三个内在要素,即政策过程信息化、制度化、社会化。并从政策创新机制的分析推出决策机制创新的分析,指出政策过程现代化要通过政策决策机
本论文以营销管理为研究方向,在相关理论的指导下,以上海梦彤洗涤用品有限公司的经营实际为背景,通过深入分析该公司营销活动中存在的问题,寻找造成其营销管理问题的根源,并帮助其
自动测试系统已在众多领域得到广泛应用,它集信息获取、传输、处理为一体,成为信息技术的重要组成部分。但测试软件的发展相对缓慢,存在开发周期长,适应性差等缺点。当自动测试系
政策过程和政策过程理论的研究,不仅要遵循拉斯维尔的"阶段启发法",更要突破这种研究模式的局限。本文跨过了以时间维度为导向的研究模式,而是基于广州市"禁摩"政策的实证分
<正> 油莎草,又称油莎豆,是一种优质高产、综合利用价值很高的油粮多用新型经济作物。油莎草含糖量高,食味香甜,素有“地下板栗”、“地下扁桃”、“糖根果”的美称。其适应
<正>2011年11月,几位艺术批评家在芜湖清谈,提倡艺术批评低碳化并形成《芜湖宣言》,遂引起业界对批评失语问题的新一轮讨论与批评。显然,当前艺术批评的失语已是不争的事实,
明确野生动植物的地理分布是基础生态学和应用生态学领域的一个基础但关键的步骤,为后续分析提供了重要的信息。而野生动植物分布调查是一项需要投入大量人力,精力和资金的工
作为一种新的数据分析工具,数据挖掘的发展十分迅速。各种类型的数据都可以作为数据挖掘的对象。时间序列在数据集中十分普遍。对时间序列进行数据挖掘已成为当前研究的焦点之