基于粗糙集理论的属性约简与决策树分类算法研究

来源 :大连海事大学 | 被引量 : 11次 | 上传用户:zk1311988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,我们正身处在一个“大数据”的时代,每天产生的大量数据之中隐藏着各种各样有价值的信息。如何从海量数据中高效地挖掘出有用的信息,是数据挖掘技术研究的热点问题。决策树算法因其简单高效在数据挖掘的分类领域被广泛采用。由于冗余和不一致数据的存在,对决策树算法在分类效率和分类准确率两方面产生了一定程度的影响,并且普遍采用的单变量决策树算法生成的决策树规模较大。因此,本文将粗糙集理论中的属性约简与决策树算法相结合,提出了改进算法,具有较强的理论研究意义和实际应用价值。本文的主要研究内容分为以下几个部分:(1)原有的属性约简算法通常是在整个数据集上进行的,且对于不相容数据采用的是直接删除的方法。考虑到这两方面的缺陷,本文提出了改进的简化决策表算法。该算法既删除了冗余数据又保留了不相容数据。通过UCI数据集的对比实验表明,该算法能有效减少原始数据集对象数目,为后续的属性约简算法和决策树算法提高效率。(2)针对基于差别矩阵的求核属性算法和代数定义下的求核属性算法的缺陷,本文提出了基于信息熵理论的求核属性算法。通过该算法求得的核属性表明,对于相容决策表,代数定义下的约简和基于信息熵的约简是一致的。但对于不相容决策表,代数约简只能保证相容部分的U/IND(P)不发生改变,而基于信息熵的约简能使得对于整个数据集的U/IND(P)不发生改变,即代数定义下求得的核属性是信息熵下的一部分。在求得的核属性基础上,本文提出了基于属性重要度的完备属性约简算法。(3)针对单变量决策树算法生成的决策树规模大的缺点,本文提出了多变量决策树算法,且通过确定性程度的引入进一步简化决策树。通过UCI数据集表明该算法在准确度和树规模两方面都优于其他4种算法。最后将本文的算法以模块化的形式嵌入属性约简与决策树生成系统,实现对数据集的约简和分类。
其他文献
通过RT-PCR方法克隆得到Candida tropicalis木糖醇脱氢酶基因xyl2,将该基因连入酵母表达载体pYES2的诱导型启动子GAL1下,构建表达质粒pYES2-xyl2;同时用从Pichia pastoris中
目的观察单纯后颅窝减压与减压加枕颈植骨融合内固定术治疗寰枕畸形的远期疗效。方法治疗组为行后颅窝减压加枕颈植骨融合内固定术寰枕畸形患者12例。对照组为行单纯后颅窝减
音圈电机(Voice Coil Motor, VCM)是一种不需要任何中间转换装置,就能把电信号直接转化成直线位移的特殊直线电机,可以消除传动机构导致的机械磨损。基于洛伦兹力,得出音圈电机的
本项目报告的文本是英国17世纪清教作家约翰·班扬所著的长篇小说《天路历程》的第一部分。《天路历程》是一本宗教性著作,在语言、思想等方面都与《圣经》形成高度的互文性
“以患者为中心,以疾病为链条”,推行多学科协作诊疗模式,是国家对医院医疗服务模式的要求。基于MDT诊疗模式及团队建设,提出3种MDT诊疗模式:基于单一病种MDT诊疗模式,基于多
随着我国医疗保障制度的逐步完善,越来越多的人更注重高质量的生活,也希望一个健康的身体,这就为我国的医药行业提供了巨大的发展机会。然而,机遇与挑战总是并存的,经济全球
骶管阻滞麻醉广泛用于小儿会阴及下肢手术,此麻醉方法具有操作简便、安全有效的特点[1]。氯普鲁卡因(chloroprocaine)是在普鲁卡因(procaine)的对氨基苯甲酸的二位上用氯原子取代
目的探讨穴位注射用腺苷钴胺联合电针治疗腰椎间盘突出症的临床疗效。方法选取我院2017年1月~2019年9月收治80例腰椎间盘突出症患者为研究对象,采用随机数字表法将其分为对照
目的:探讨手术前玻璃体腔注射雷珠单抗对增生型糖尿病视网膜病变(prolifertive dibetic retinopthy,PDR)患者25G微创玻璃体视网膜手术(vitreoretinal surgery,VRS)围手术期指标的