论文部分内容阅读
属性选择是机器学习的核心问题之一,它关系到归纳算法的复杂性和学习性能。与目标概念不相关的或受噪声干扰的属性会严重降低学习效果,而粗糙集属性约简是一种有效的消减冗余属性、选择与目标概念强相关属性子集的方法。由于经典Rough集主要面向nominal attribute对象,处理通常包含噪声和干扰数据的数值型对象时有很大局限。本文的研究内容主要集中于Rough集理论对数值型属性对象的约简算法及其在数字字符识别中的应用,结合属性选择的基本准则提出面向数值属性约简的评价函数并设计对应的搜索算法,这些约简算法完全适用于nominal attribute。 具体研究工作如下:一.在Rough集的基本算法方面,提出了计算等价类的快速算法和增量算法以及计算正区域的改进算法,分析了算法的时间复杂度;改进了最短属性约简GA的适应度函数,引入特定有效位变异算子,以提高GA搜索效率。二.针对数据集包含噪声和干扰问题,提出利用属性同类一致性选择抗干扰属性。定义了两种结合一致性的属性重要度:1.熵函数形式的类内一致性判据J_C,度量同类样本属性分布的随机性;2.根据样本同类相似和不同类相异概率定义的属性综合分辨力W(·)。这两种属性重要度都利用数据的统计特征,克服了经典Rough集属性约简对噪声敏感的缺点。在搜索算法方面设计了J_C的全局优化算法、filter算法和以W(·)为启发式知识的SDAR约简算法,这些约简算法的目的是获得高度同类一致性的属性子集,导出覆盖率高的规则库。三.探讨了Rough集理论应用于数值属性对象的局限性,采用相似关系粗集模型对连续数值属性对象分类,设计了相似关系数值属性约简算法SDAR-SIMR。该算法通过相似性阈值控制不同类样本的间隔,是一种可控的直接约简连续数值属性的算法。四.用上述约简算法对车牌字符和手写数字mfeat数据集约简,导出分类规则,分别用规则匹配和最近邻法识别。实验表明,与常用约简算法相比,本文提出的结合属性一致性的约简算法可以获得相对少的规则,并且规则匹配度、字符识别率较高。