基于模糊集合信息熵的混合属性层次聚类算法

来源 :汕头大学 | 被引量 : 0次 | 上传用户:slksm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘中一个重要的研究分支,已在多个领域得到了很好的应用,诸如模式识别,数据分析和图像处理等。随着实际应用中数据的大量产生,数据的属性类型不再是单一类型为主,而是混合属性为主。在对混合属性的处理中,虽然有k-prototype等经典算法,也有基于离散化数值属性算法,但效果总是差强人意。前者简单把两个属性相似度相加,后者不考虑数值属性的顺序问题。这显然影响其结果。  我们基于模糊集理论,提出了一种模糊离散化的方法,让数值属性在离散化后还保留部分序的信息,更好地对不同类型属性进行信息融合。然后基于信息熵理论提出一种自底向上的层次聚类算法。  本文主要包含以下几个方面的内容:  1.聚类分析理论。主要介绍了聚类分析的定义、数据对象间的相似度度量方法、聚类挖掘的常见方法及聚类结果的评估标准。  2.对模糊集、信息熵的相关理论进行介绍。  3.对一种确定最佳聚类数的Gap Statistic方法进行介绍。  4.基于模糊集和信息熵提出一种层次的聚类算法MHC—BFI。先通过k-means进行聚类,对数值属性找到基于分布的离散化的离散点,把这些点作为模糊集的元素,将数属性模糊离散化到模糊集中;再用基于信息熵的层次聚类算法进行聚类。最后,我们用UCI中的数据集对我们算法进行了验证,说明我们算法是有效的。
其他文献
视频拼接技术在视频监控、医学影像分析等领域具有广泛的需求和应用,它是一种将一组具有重叠区域的视频图像在不降低分辨率的条件下合成一个较宽视场的视频图像的技术。  本
随着电子商务的发展,认证邮件协议作为一种能够使协议的参与方都满足公平性的邮件协议,越来越受到人们的关注。认证邮件协议是公平交换协议的一种,它是指一个发送方需要将邮
RSA算法是现在应用最广的公钥密码算法,但是一直以来,受限于嵌入式设备的有限资源问题(如CPU运行速度,内存等),使RSA算法很难在嵌入式设备上高速的运行。近些年来,很多算法被
文档作为一种重要的大数据类型,蕴含着丰富的有价值的数据,其具有非结构化、样式不固定、数据混杂、价值稀疏等特征。针对文档大数据的特点,提出了一种基于MapReduce的文档大数
视频风格化处理是图像非真实感渲染技术的分支,它将艺术化效果嫁接到普通视频中,使得原有的视频带有丰富的艺术情感信息。人们观察视频或图像时往往将注意力集中于其中的显著部
本文以集成供应链中采购管理软件的开发为应用背景,探讨了基于工作流的软件模型、本体描述方法、协同方法等系统设计问题,建立了一个高效的采购管理软件框架,并利用Petri网等
公交车作为居民出行的主要公共交通工具,由于实时客流量信息的不足,导致经常出现严重的空乘和拥堵现象。因此,迫切需要一种科学合理的公交站台客流量采集手段,为公交车的实时规划
随着社会信息化程度的提高,人们对于信息实时性的要求也日益提高。如何从海量的信息中查找到所需的最新信息越来越引起人们的关注。而XML作为网络数据表示和交换的标准,很多
跨语言信息检索(CLIR)是用户采用一种语言的查询检索另一种语言的文档集合的过程。查询翻译是CLIR系统中采用最广泛的方法。查询翻译普遍采用基于词典的方法,而查询中的未登录词
在数据采集和处理中,存在着大量的概率数据,这些数据具有复杂的相关性以及在查询和处理方面具有实时性。而目前的传统关系数据模型都是用来处理确定数据的,这就需要研究支持