半监督聚类算法及应用的研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:vsbutcher00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是人类一项最基本的认识活动,也是处理数据的重要工具,在许多领域中被广泛地应用。该文主要侧重于半监督聚类分析的研究,针对现有方法存在的问题,提出一些新方法和观点。该文首先对聚类分析做了深入的研究,详细介绍了聚类的发展、研究现状,并在此基础上对具有代表意义的不同聚类方法进行了总结、比较;定义了与论文研究有着密切关系的信息论相关知识点以及数据分布和优化理论等概念。接着重点探讨了基于辅助空间的半监督聚类算法并分析算法的相关性质。然后将极大熵原理引入半监督聚类方法中实现聚类。提出基于辅助空间与极大熵的半监督聚类算法AMESC,针对该算法中的代价函数进行迭代优化,给出了一个新的聚类算法。AMESC的优势在于它依据模拟退火过程,使算法避开局部极小而得到全局极小,提高算法性能。一般来说,无监督聚类仅仅基于主空间。当辅助空间被引入聚类过程时,无监督聚类成为半监督聚类。在这篇论文中,代价函数的设计既考虑到主空间又考虑到辅助空间,从而一个新颖的基于辅助空间与主空间合作的的半监督聚类方法APMSC被提出。该算法通过迭代优化,使得相应的代价函数最小化,最终得到有效的聚类结果。最后,对上述算法做了设计和实现,通过大量实验测试验证了该文提出的算法具有有效性和优越性。
其他文献
生成高度真实感的虚拟自然场景一直是图形学研究领域中一个富有挑战性的难题。作为自然场景的重要组成部分,地形真实感模拟逐渐得到人们的广泛重视。本论文实现了一个三维分
由于Internet的广泛应用,基于Internet的网络战已经成为信息战的一种重要形式。为了在未来的网络战中掌握主动权,网络攻击技术是不可或缺的网络战武器,而要进行成功的网络攻击,首
数据中心已成为全球信息化建设的基础支持设施。功率供应是建造数据中心的最大限制之一,是数据中心昂贵的资源。然而部署了大量延迟敏感型应用的数据中心功率利用率低下问题一
J2EE服务架构已成为当前行业应用软件开发的主流架构,然而在实际的应用中,J2EE构架的重量级组件却给系统开发和测试带来了很大的困难,以致造成了很多项目的失败。近年来,集成了多
生物识别技术在当今世界中已经得到了广泛的应用。虹膜身份识别是一种新兴的生物身份识别技术,由于其具有唯一性、稳定性、可采集性、非侵犯性等优点而逐步受到人们的重视。与
关联规则是数据挖掘技术的一种方法,侧重于确定数据集中不同属性之间的联系,找出满足给定支持度和置信度阈值的多属性之间的依赖关系。这样的规则可以应用于商品货架设计、存货
在当前科研机构的日常办公中,对科研信息的管理是非常重要的工作。对于大量的科研信息,如何能够快速的检索到用户真正感兴趣的内容,成为近些年来学者研究的一个热点。目前,国内外
为了能更好地支持决策分析,发挥数据的更大价值,数据仓库技术应运而生。其中,联机分析处理(OLAP)是数据仓库最主要的应用之一。本文从提高数据仓库和OLAP系统性能的角度出发,讨论
随着Internet和分布式系统的广泛应用,安全协议逐渐发挥着越来越重要的作用。形式化的方法是分析安全协议的主要方法。目前已经有很多研究安全协议的理论和方法,其中比较著名
工作流是一类能够完全或者部分自动执行的经营过程,它能使一系列过程规则、文档、信息或任务能够在不同的执行者之间进行传递与执行。而工作流管理系统则是一个软件系统,它完