基于联合特征提取的粗糙集文本分类的研究

来源 :北京科技大学 | 被引量 : 0次 | 上传用户:hc_z
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前传统的信息检索技术己不适应日益增加的大量文本数据处理的需要,用户需要更加有效的检索算法实现文档重要性和相关性的排列,完成不同文档的分类比较,或找出多文档的模式和趋势。所以,文本数据的挖掘成为数据挖掘中一个日益流行且重要的研究课题。 文本挖掘中常用的技术有文本的自动分类、聚类、文本总结和关联分析等,其中文本自动分类是一种重要的方法。利用文本的自动分类技术可以用来整理互联网内部的文本,通过将文本分配到一个类别体系中,限定查找文本的范围;还可以应用到搜索引擎的检索结果的组织上,将搜索引擎的检索结果划分为若干个具有明确主题的簇,使得用户只考虑相关的簇,大大缩小了需要浏览的文本数量。 本论文主要探讨了文本自动分类的特征提取和分类算法,所作的主要工作如下: 1.研究了文本的特征提取方法,通过对互信息和χ2统计的研究根据其各自的缺陷,并对特征提取的方法进行了改进。 2.研究了如何利用粗糙集的知识约简理论提取文本分类规则的新方法,该方法可以自动提取分类规则,比人工建立规则库容易实现得多; 基于粗糙集理论的文本分类算法中,将文本特征项的权值作为规则的条件属性,文本所属的类别用作决策属性,构造决策信息表。首先将每一文本的每个特征项的权值进行离散化处理,然后通过知识约简提取出文本的分类规则。该方法生成的规则易于理解,分类准确度较高,分类的速度快。 最后,对本论文的内容进行了总结,并对文本挖掘的研究提出了展望。
其他文献
P2P(Peer-to-Peer)网络因其端到端特性,可避免客户/服务器模型的服务瓶颈问题,因而成为下一代互联网研究的热点。在P2P网络中,如何对资源进行搜索和定位一直是该领域中的关键
随着社会的发展,越来越多的企业和政府部门都在寻求跨部门和跨企业的合作。但由于各企业和部门之间应用系统存在着异构性,造成的数据孤岛现象,部门间数据无法有效整合并及时
协同CAD是CSCW技术在CAD方面的应用之一,它已成为新时期产品设计的主要方式之一。目前虽然有相应的系统出现,但由于各方面的局限性,这些系统还不完善。因此本文就协同CAD中的
发现和维护网络的拓扑结构对网络管理来说至关重要。随着网络技术的高速发展和新设备层出不穷,用传统的C/S管理体系来发现大规模网络的拓扑结构变得日益困难。本文在研究了传
学位
随着计算机以及信息技术的发展,生物特征识别技术的研究受到了广泛的关注和探讨。相对于其他的生物特征鉴定技术,例如人脸识别及虹膜识别,指纹识别具有独到的优点,具有很高的实用
人体和人体器官的数字化建模及以此为基础展开的仿真研究是当前国际生物医学领域的前沿课题。眼睛作为人体中一个极为精密且十分重要的器官,其数字化模型的建立与在此基础上
学位
近几年来,高校规模不断扩张,万人以上的大学已不在少数,另一方面,高校的数字化建设也取得了一定的进步,校园网已初步建成,学校的各个部门都积累了大量的信息数据。这些数据如
信息爆炸的今天,各行各业每天都产生大量的数据,这些不同的数据构成了一个“数据集市”。互联网高速发展与普及,数据大规格集中管理与推广,激发了人们对数据公开和数据共享的需求