基于聚类的属性约简方法的研究与实现

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:tonymin111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining)是人工智能与数据库领域当前研究的一个热点,引起了大量学者与专家的关注。在众多的数据挖据的方向中,属性约简是其中的一个重要研究课题。一个原始的数据库中有许多记录,而且需要一定数量的属性对这些记录进行描述。如果直接对这样的原始数据库进行数据挖掘,其工作量非常大。而如果先对原始数据库进行属性约简,从原始的属性中,根据用户的需求提取出一部分有代表性的属性子集,那么就能为以后的数据挖掘工作减少了许多工作量,同时能使后面的数据挖掘工作更有针对性。 本文首先介绍了现有的数据挖据技术,并分析了目前国内外属性约简的理论与方法,指出了现有的属性约简模式挖掘方法的成果与不足。针对存在的不足,提出了一些新的想法与新的见解,并通过实验验证了所提出的新方法的可行性与有效性。本论文的主要工作分三部分展开: (1)阐述属性约简问题及其现有的属性约简方法,分析它们的优缺点。 (2)基于聚类的属性约简方法的研究与实现。 针对现有的属性约简方法在约简的过程中与用户的交互过程太少的问题,提出了属性距离的定义及其基于聚类的约简方法。该部分工作对应于论文的第三章,首先给出了属性依赖度和相对依赖度的定义,然后根据用户给定参数,根据由属性相对依赖度计算出的属性距离对属性进行聚类,将区分能力相似的属性聚集到同一个类中,最后从每个类中选取出属性组成约简属性集。 (3)提出几种属性集质量评估模式。 目前对约简属性集的评价仅仅限于属性集的区分能力的强弱。但是评价一个属性集的好坏应该看它是否满足用户的要求。能满足用户需求的属性集才是一个合格的属性集。所以我们应该为用户提供更多的评估模式,让用户能从各个方面去选取合适的约简属性集,在第四章中,我们提出了几种属性集质量的评估模式,分别从区分准确度、平衡度、强壮度和相似度几个方面对属性集给出客观的评估。 本文提出的方法力求改进现有算法的不足,同时拓宽属性约简的研究范围。对于提出的两个研究工作,我们都在真实数据库与合成数据库上进行了为数不少的实验,实验结果表明: <1>基于聚类的属性约简方法比以往的属性约简方法有更好的交互性能。通过用户对参数的指定,约简出接近用户需求的属性集。 <2>通过几种属性集质量评估模式,能从各个方面去了解属性集。
其他文献
随着信息处理在通信、工业生产、商务处理等领域的广泛应用,数据已不仅仅拘泥于文件、数据库等传统的静态形式,一种连续、无界、不定速度的数据流已经出现在越来越多的应用领域
随着嵌入式技术的发展,智能手持设备日益普及,其安全问题也逐渐引起人们的关注。针对各种安全威胁,目前已经开发出了多种手段进行防护,如用户认证,病毒扫描,数据加密等。但我们注意
随着Internet的发展和后PC时代的到来,嵌入式系统的应用愈来愈广泛。随着因特网的发展,Web技术的广泛应用,越来越多的网络通信设备甚至测试仪器都已经实现内置的嵌入式Web服
本论文对基于软交换的媒体服务器进行了研究,在研究成果的基础上目前已经完成了一个基于软交换的媒体服务器原型系统的开发。论文对研究过程中取得的主要创新成果进行了详细阐
围绕网络的应用,网络安全一直是亟需解决和完善的问题。单纯依靠防火墙策略已经无法满足对网络安全的需要。入侵检测系统作为一种新型的网络安全技术,能有效地弥补防火墙的不足
随着因特网的迅猛发展,“信息爆炸”已成为信息处理领域中的瓶颈问题。信息的日益国际化及语言之间的障碍形成了人们对机器翻译系统的强烈需求,而普遍存在的知识获取难题始终制
对等网络(Peer-to-peer网络或简称为P2P网络)是由既充当服务器又充当客户端的结点组成的大规模应用层网络。由于P2P网络能充分利用网络资源,工作方式灵活,目前已成功应用于许多领
随着科技的进步,遥感技术已经发展的日趋成熟,而遥感技术由于其自身的特性,已经被广泛的应用在土地利用分类上。土地利用分类作为一项基础的研究工作,把遥感技术应用在其中,
在当今这个信息化的时代,网络技术正在以前所未有的速度飞快发展。新一代宽带多媒体通信卫星系统作为网络与通信技术飞速发展的成果,有着广阔的研究价值和社会效益。宽带多媒体
随着网络经济和网络时代的发展,计算机网络的安全已经引起了世界各国的共同关注,计算机网络蓬勃发展的同时,也面临着巨大的挑战。面对网络安全的严峻挑战,如何在深入研究问题实质