面向数字字符识别的粗糙集属性约简算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:lllwan1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
属性选择是机器学习的核心问题之一,它关系到归纳算法的复杂性和学习性能。与目标概念不相关的或受噪声干扰的属性会严重降低学习效果,而粗糙集属性约简是一种有效的消减冗余属性、选择与目标概念强相关属性子集的方法。由于经典Rough集主要面向nominal attribute对象,处理通常包含噪声和干扰数据的数值型对象时有很大局限。本文的研究内容主要集中于Rough集理论对数值型属性对象的约简算法及其在数字字符识别中的应用,结合属性选择的基本准则提出面向数值属性约简的评价函数并设计对应的搜索算法,这些约简算法完全适用于nominal attribute。 具体研究工作如下:一.在Rough集的基本算法方面,提出了计算等价类的快速算法和增量算法以及计算正区域的改进算法,分析了算法的时间复杂度;改进了最短属性约简GA的适应度函数,引入特定有效位变异算子,以提高GA搜索效率。二.针对数据集包含噪声和干扰问题,提出利用属性同类一致性选择抗干扰属性。定义了两种结合一致性的属性重要度:1.熵函数形式的类内一致性判据J_C,度量同类样本属性分布的随机性;2.根据样本同类相似和不同类相异概率定义的属性综合分辨力W(·)。这两种属性重要度都利用数据的统计特征,克服了经典Rough集属性约简对噪声敏感的缺点。在搜索算法方面设计了J_C的全局优化算法、filter算法和以W(·)为启发式知识的SDAR约简算法,这些约简算法的目的是获得高度同类一致性的属性子集,导出覆盖率高的规则库。三.探讨了Rough集理论应用于数值属性对象的局限性,采用相似关系粗集模型对连续数值属性对象分类,设计了相似关系数值属性约简算法SDAR-SIMR。该算法通过相似性阈值控制不同类样本的间隔,是一种可控的直接约简连续数值属性的算法。四.用上述约简算法对车牌字符和手写数字mfeat数据集约简,导出分类规则,分别用规则匹配和最近邻法识别。实验表明,与常用约简算法相比,本文提出的结合属性一致性的约简算法可以获得相对少的规则,并且规则匹配度、字符识别率较高。
其他文献
【摘要】语文阅读教学是初中阶段培养学生良好的阅读习惯的重要环节,也是初中语文新课改的重点工作之一。通过描述初中语文阅读教学效率低、效益差的状况,提出了设计体验式课堂,引导自主性阅读,运用多样化方法的优化策略,探讨了提高初中语文阅读教学的水平的有效方法。  【关键词】初中语文 阅读教学 优化策略  【中图分类号】G633.3 【文献标识码】A 【文章编号】2095-3089(2015)05-0087
【摘要】当下,高中生的作文大都追求速成,所以有了很多速成班,随之而来则是“作文开头十法”“满分作文万能结尾”等等。可是,当学生作文成了技巧、模式的演练场时,作文就完全丢掉了自我和真实情感,成了一束束批量生产的色泽艳丽、包装精美的塑料假花,没有任何生机。因此,笔者呼吁:让真情实感、本真性情回归到学生们的作文中来吧!  【关键词】作文教学 真情实感 高中  【中图分类号】G633.3 【文献标识码】A
【摘要】生活犹如源泉,文章犹如溪水,泉源丰盈,溪流自然活泼泼地流个不息。学会捕捉生活细节。作文这件事离不开生活,生活充实到什么程度,才会做成什么文字。所以论到根本,除了不间断地向着求充实的路走去,更没有可靠的预备方法。写作是学生对生活的另一种演绎形式,将生活中的美丑通过学生自己的酝酿加以表现,但源于生活,它是生活的重现。  【关键词】互动写作 积累 写作生活  【中图分类号】G623.2 【文献标
地面目标定位是无人机的重要应用之一,也是目前网络处理和模式识别领域的热点研究课题之一。传统的无人机系统依靠GPS导航定位,当GPS失效的情况下,通常利用惯性导航、光电测