基于决策粗糙集的聚类数自动确定方法

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:wqg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘研究中重要的方法之一,它在发现数据内在结构特征方面有着重要作用。聚类是一种无监督的学习方法,它已经广泛应用在模式识别、商务智能、图像分析、信息检索和生物信息学等众多领域。   现在已有很多种成熟的聚类算法,包括划分聚类和层次聚类等。然而这些方法大部分都需要人为的提供像聚类类簇数这样的参数,比如,划分聚类需要预先知道聚类的类簇数,层次聚类需要知道聚类的终止点,此外还有基于网格聚类需要预先知道网格大小的阈值参数等等。然而这样的参数在实际应用中是很难得到的,这就大大的限制了聚类分析在现实中的应用。因此,对一个给定系统进行聚类时,一个基本而困难的问题就是如何确定聚类类簇数。   为了数据驱动地确定聚类数,一个好的聚类有效性指标(CVI: ClusterValidity Index)是必不可少的,它可以用来评价在聚类过程中得到的聚类结果(Clustering Result)的好坏。Yao等人提出的决策粗糙集模型对于分类有更好的理解,它是一个典型的概率型粗糙集模型,引入了贝叶斯理论来获得最小损耗的决策。   本文通过扩展决策粗糙集模型提出了一种在层次聚类算法框架下的自动确定聚类数的新方法。首先,我们扩展了决策粗糙集模型,用代价(risk)的概念来描述对象之间的关系,进而描述聚类结果的好坏。而以这个代价作为描述某个聚类结果的聚类有效性评价指标,在文中称为基于DTRS的聚类有效性函数。然后,根据此评价函数,基于凝聚型层次聚类算法框架,将聚类过程中的每个聚类结果的代价值描绘为曲线,我们发现并证明了该曲线最多只有一个极值点。所以,我们根据曲线的变化趋势,就可以找出最佳聚类数和对应的聚类结果,从而实现自动的确定聚类数。最后,我们根据在算法有效性证明过程中得到的性质,改进了算法的聚类效率,大大降低了算法的时间复杂度,实现了高效、准确的确定聚类数。
其他文献
我国的甲醇生产企业多,随着我国经济由高速增长阶段向高质量发展阶段的转变,提高产品质量和服务质量是一个企业持续健康发展的基础,产品质量是市场争夺的关键因素.因此,一定
从煤矿开发的角度来说,掘进机在采矿的整个系统内占有十分重要的位置,这是因为掘进机可否具有良好的性质,在本质上决定了煤矿开挖的整体效益.针对煤矿掘进机展开故障诊断,要
地震是一种破坏性大的自然灾害,对核电厂有着十分显著的安全威胁.本文对地震信息快速获取系统原理及构成进行介绍,并重点阐述了其与核电厂地震监测系统的联系以及在地震灾害
车辆平顺性虚拟仿真是集虚拟现实和车辆工程等领域为一体的交叉方向。它的基本任务包括:建立车辆和路面模型进行平顺性仿真,确保仿真结果接近于实车实验结果;在虚拟环境下利用
研究电能表现场校验方法以及提高电能表精确度的相关方式,全文通过对电能表现场校验的特点进行分析,制定出一系列有效的校验方案;通过对影响电能表计量准确度的因素进行观察
随着近年来人们生活水平的不断提高,一些火灾事故逐渐受到了人们的广泛关注,在此过程中,消防监督工作也开始受到人们的重视.本文主要针对消防监督工作开展的难点进行分析,首
伴随着医疗卫生事业及医药科技的快速发展,临床医疗活动中的药物使用问题也逐步成为公众关注的焦点。而随着药物的广泛使用,药源性疾病对人类健康的危害也越来越大,合理使用
随着高校信息化建设的快速发展,各类高校管理系统中所存储的数据量也成几何级增长,高校大数据正在形成。面对高校大数据,高校迫切期望能对其进行分析挖掘,发现其中蕴藏的教学规律
大规模多计算系统在提供快速的处理能力和广泛的存储能力的同时也带来巨大的能源消耗和维护成本。在计算系统虚拟化技术的帮助下,物理机上可以同时运行多个虚拟机,每个虚拟机对