基于粗集理论的中文文本自动分类与检索研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:kyoukini
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今人类已经步入了信息化的时代,大量的数据都是以数字化方式存储于Internet上的,而其中文本占据了重要的份额。要在如此海量的数据中汲取有用的信息,就离不开好的针对电子文本的自动分类和检索系统。目前文本自动分类与检索已经成为自然语言处理领域研究的一大热点。自动分类中常常要对向量加权,现有的加权算法着重考虑的是特征项频率和反文档频率等信息,忽略了特征项在不同类别中的分布,以及这种分布与分类决策的相关度,这些都影响到了现有分类系统的性能。此外自动分类还离不开文档向量的构造,向量的分量与文档中的特征项相对应,这种向量通常高达几千维甚至数万维,计算量相当大,因此需要对文档向量进行约简。而传统的基于频率的阈值过滤法往往会导致有效信息的丢失,也影响了分类的准确度。本论文引入了Rough集这一新数学理论工具,并在此基础上实现了新的分类模型。Rough集理论不仅可以用于对特征项进行加权,还能同时进行约简,剔除文档向量中的冗余信息。我们还使用Rough集理论在分类基础上实现了基本的检索功能。最后的实验结果表明,使用Rough集进行加权,能有效地用若干离散权值将特征项根据其分类重要度区分开来,从而最大限度避开频率因素的影响。Rough集加权能在抑制分类能力弱的高频信息的同时,提高分类能力强的低频特征项的重要度,最终提高分类的准确度。使用Rough集进行约简,不仅能显著缩小文档向量的规模,而且不会像传统的阈值法那样有大量的信息损失,能在不影响到分类准确度的同时显著地降低运算量。
其他文献
现代汉语中状语后面有时用“而”,如“呼啸而过”;有时不用“而”,如“为人民服务”;有时用不用两可,如“通过内因起作用”“通过内因而起作用”。本文以充当状语的语言成分
商务旅游是指商务人士在商务活动过程中所产生的旅游消费行为,发展商务旅游已经成为一个城市经济增长的重要支撑点。中国国内的商务旅游基本处于"机票+酒店+接送"的初级阶段
<正>夏德元:2015年的跨年夜如期而至,在上海,忙碌了一年的人们热情高涨地商讨着各种出游的计划,微信朋友圈里的庆祝与晒图也是此起彼伏。让人们意想不到的是,几小时前备受推
正交频分复用(OFDM)技术具有频谱利用率高、能够有效对抗频率选择性衰落等优点,这些优点使其成为第四代移动通信的关键技术。但是由于无线信道的多径性和时变性,造成了接收端
在当前的形势下,随着世界航运业的不断发展,市场经济机制的引入,我国的航运企业面临着激烈的市场竞争,当前燃油价格变幻莫测和不断攀高,燃油成本已经成为船舶运输成本中最大
优秀的影视作品从内容到艺术形式都包含着人类文明进步的成果,它们可以为教育提供宝贵的资源。随着信息化时代的到来,富有艺术魅力的影视作品对学生生活的影响越来越深入,不
Humor has been a popular subject of research for several decades. It is related to a number of subjects including linguistics, psychololgy, sociology and anthro
面对激烈的市场竞争,消费者选择机会的增多,生存和发展的压力迫使越来越多的企业把顾客满意经营作为竞争性战略。而对于医院来说,由于竞争的同趋激烈和医疗顾客的需求越来越
文章对作者在1995年提出建立东亚自由贸易区的观点后,东亚自由贸易区21年后仍然没有建立的问题进行了梳理,提出东亚自由贸易区东亚早已经具有基本经济条件,可以建立东亚自由
《全唐詩》是清朝康熙時,彭定求、沈三曾、楊中訥、潘從律、徐樹本、車鼎晉、汪繹、查嗣栗、俞梅等人奉敕編纂,於康熙四十四年(1705)三月始編,次年十月成書,不足兩年而成此書
学位