基于模糊—粗糙集的文本分类模型

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:kim5618
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何在浩若烟海而又纷繁芜杂的文本信息中获取最有效的信息是信息处理的一大任务。文本自动分类是实现这个任务的重要方法之一。在文本分类过程中,由于同义词、多义词、近义词的存在导致许多类并不能完全划分开来,造成类之间的边界模糊。此外交叉学科的发展,使得类之间出现重叠,于是造成许多文本信息并非绝对属于某个类。这两种情况均会导致分类有偏差。 针对上述情形,本文提出利用粗糙—模糊集理论来处理在文本分类问题中出现的这些偏差。模糊—粗糙集理论有机的结合了模糊集理论与粗糙集理论在处理不确定信息方面的能力。粗糙集理论体现了由于属性不足引起集合中对象间的不可区分性,即由于知识的粒度而导致的粗糙性;而模糊集理论则对集合中子类边界的不清晰定义进行了模型化,反映了由于类别之间的重叠体现出的隶属边界的模糊性。它们处理的是两种不同类别的模糊和不确定性。将两者结合起来的模糊—粗糙集理论能更好地处理不完全知识。 本文的创新点如下: 1、将模糊—粗糙集理论用于文本分类,并将模糊—粗糙集理论与k-NN模型相结合。 2、利用基于距离的邻域空间来取得与每个类和待分类文本有关的邻近点数。改变以往k-NN模型通过训练取得一个对所有类都一样的最优k值。 通过实验比较,基于粗糙—模糊集理论的分类模型使分类结果有了较好的语义解释,并在一定程度上提高了分类的精度和召回率,同时并没有增加分类计算过程的复杂度。但是实验中某些参数的获取还存在不足之处,如不确定性出观时调节参数的设置以及划分邻域空间时距离的获取,都还须改进。这些问题有待于我们在今后的工作中作进一步研究。
其他文献
本项研究作为PAR方法研究的一个重要组成部分,目标是开发一个自动程序转换系统,该系统能将用Radl语言描述的算法转换成抽象语言程序Apla程序.围绕转换系统的设计与实现,本文
WebServices(万维网服务)是网络应用的集成方案,是XML(eXtensibleMarkupLanguage)、SOAP(SimpleObjectAccessProtocol)、WSDL(WebServicesDescriptionLanguage)和UDDI(Univers
线程技术是现代操作系统最重要的功能之一,也是程序员开发高性能并发程序的得力工具。然而,现今嵌入式系统中的线程机制在兼容性、效率等方面普遍存在不足,阻碍了采用多线程
知识管理作为当代企业管理的重要概念与手段,随着工业经济高度发展,知识成为最重要的生产因素和经济增长源泉,有效地缩短产品开发周期,降低企业生产风险,提高企业技术能力和核心竞
虚拟化技术为云计算的发展提供了坚实的基础,正被广泛研究与应用。Xen作为一种开源、高效的虚拟化软件,正成为研究热点。Xen中断虚拟化技术是I/O虚拟化技术中重要的部分,对I/O虚
目前,实用的网络体系结构都是层次结构,TCP/IP是目前互联网所使用的主流网络体系。由于最初的TCP/IP协议栈本来就是为了窄带文本数据而开发的,随着全球互联网的蓬勃发展,TCP/
本文对电大远程教育平台进行了系统分析和系统设计,分析平台的组成、工作流程以及各种常见的网络结构,指出当前远程教育平台的缺陷和将对等网络技术运用到平台的优越性,设计出新
决策信息系统是处理大量数据以获取有效决策,并应用于各个领域的信息系统模型。决策信息系统中包含的不确定性对决策规则的产生、有效决策的生成具有重大影响。而粗糙集理论作
实时系统是一类重要的计算机应用系统,它经常被使用在对安全性要求极高的操作环境中,因此确保此类系统的正确性至关重要,并且需要我们使用形式化的方法对实时系统进行规范验
网络处理器是当前为加速主干网络节点处理速度而提出的并行体系结构。不同于传统的通用处理器,网络处理器充分的利用线程级的并行提升性能。网络处理器复杂的体系结构和编程模