论文部分内容阅读
现如今,我们正身处在一个“大数据”的时代,每天产生的大量数据之中隐藏着各种各样有价值的信息。如何从海量数据中高效地挖掘出有用的信息,是数据挖掘技术研究的热点问题。决策树算法因其简单高效在数据挖掘的分类领域被广泛采用。由于冗余和不一致数据的存在,对决策树算法在分类效率和分类准确率两方面产生了一定程度的影响,并且普遍采用的单变量决策树算法生成的决策树规模较大。因此,本文将粗糙集理论中的属性约简与决策树算法相结合,提出了改进算法,具有较强的理论研究意义和实际应用价值。本文的主要研究内容分为以下几个部分:(1)原有的属性约简算法通常是在整个数据集上进行的,且对于不相容数据采用的是直接删除的方法。考虑到这两方面的缺陷,本文提出了改进的简化决策表算法。该算法既删除了冗余数据又保留了不相容数据。通过UCI数据集的对比实验表明,该算法能有效减少原始数据集对象数目,为后续的属性约简算法和决策树算法提高效率。(2)针对基于差别矩阵的求核属性算法和代数定义下的求核属性算法的缺陷,本文提出了基于信息熵理论的求核属性算法。通过该算法求得的核属性表明,对于相容决策表,代数定义下的约简和基于信息熵的约简是一致的。但对于不相容决策表,代数约简只能保证相容部分的U/IND(P)不发生改变,而基于信息熵的约简能使得对于整个数据集的U/IND(P)不发生改变,即代数定义下求得的核属性是信息熵下的一部分。在求得的核属性基础上,本文提出了基于属性重要度的完备属性约简算法。(3)针对单变量决策树算法生成的决策树规模大的缺点,本文提出了多变量决策树算法,且通过确定性程度的引入进一步简化决策树。通过UCI数据集表明该算法在准确度和树规模两方面都优于其他4种算法。最后将本文的算法以模块化的形式嵌入属性约简与决策树生成系统,实现对数据集的约简和分类。