论文部分内容阅读
随着信息全球化的到来,企业为了提高自身的竞争优势,在生产与经营过程中积累了海量的数据,然而如何从这些数据中得到有价值的信息是数据挖掘学科要解决的重点课题之一。粗糙集理论是由Pawlak提出的一种处理数据挖掘领域中不确定性和不完备性知识的数据分析工具。该理论的核心概念是基于等价关系的上近似和下近似,借助这两个概念可以将隐含在信息系统中的知识表示成决策规则的形式。由于基于等价关系的经典粗糙集理论在复杂的信息系统中的应用受到了限制,因此许多研究者对其进行了推广,其中Z.Bonikowski利用论域上的覆盖构造了上下近似算子从而建立了覆盖粗糙集理论,EricC.C. Tsang定义了诱导覆盖粗糙集理论,该理论进一步丰富了覆盖粗糙集理论。由于粗糙集理论中上下近似算子的重要性质对偶性在诱导覆盖粗糙集理论中并不成立,因此本文对EricC.C. Tsang定义的上下近似算子进行了修改使其具有对偶性,并讨论了两种模型的相关性质和它们之间的关系。由于经典粗糙集理论不但易受噪声数据的影响且容错能力差,因此Ziarko变精度粗糙集模型通过引入一个参数来处理这类问题,但该理论仍然受限于论域上的不可区分关系,本文借鉴变精度粗糙集理论的思想定义了基于诱导覆盖的可变精度粗糙集模型,并对其相关概念和代数性质进行了讨论。知识约简(属性约简)是数据挖掘领域中的一个重点问题,粗糙集理论作为一种数据挖掘工具多年来一直致力于对属性约简算法的研究。以往对于覆盖粗糙集理论的研究大多侧重于近似算子及其性质的研究,William Zhu在Z.Bonikowski覆盖粗糙集模型的基础上提出了一种约简方法,该方法作为一种消除知识库中冗余数据的技术仅是消除一个覆盖中的冗余元素,因此其应用范围受到了极大的限制,本文将证据理论与基于诱导覆盖粗糙集理论的思想结合起来,提出了一种新的覆盖粗糙集属性约简算法即基于证据理论的诱导覆盖粗糙集Ⅱ属性约简算法,最后将该算法应用于多值信息系统中。