中文文本分类特征提取方法的研究与实现

被引量 : 0次 | 上传用户:chentong85952000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络技术的迅猛发展,文本信息数量呈现指数级的增长。文本分类作为一种有效的文本信息组织管理技术能很好地组织管理海量、异构的信息。在文本分类基础上通过信息检索、过滤等技术可以帮助人们从海量信息中快速,准确地查找相关知识信息,提高生活工作效率,因此对文本分类技术的研究具有较大的研究意义和实用价值。本文首先对文本分类关键技术进行研究分析,在此基础上对特征提取方法进行了重点研究,提出了新特征提取方法,并利用新特征提取方法设计开发了一个中文文本分类系统,实验结果分析表明文中提出的特征提取方法取得了良好的实验效果。本文主要的研究工作如下:①分析了对文本分类过程及关键技术,研究了文本特征特征提取方法。通过对基于过滤模型的几种常用特征提取方法分析比较后,发现文本特征提取过程中负相关特征与弱相关特征对特征提取质量好坏易产生较大的干扰。为了避免这种干扰,本文提出一个基于类别正相关和类别强相关的特征提取方法SP (Strong Correlation and Positive Correlation,正相关与强相关),S P方法通过优先选择正相关特征和强相关特征,有效地减少了负相关特征和弱相关特征的干扰,从而保证高质量文本特征的提取。②设计与实现了一个中文文本分类系统,把文本分类的特征提取方法SP应用到中文文本分类系统。文中对中文文本分类系统进行了总体设计和功能模块设计,分析研究汉语语法分析工具包ICTCLAS与全文检索工具包Lucene,并将二者结合作为中文文本分类系统搭建解决方案,最终实现了中文文本分类系统。③在中文文本分类系统上对特征提取方法进行大量的实验。把本文提出的新特征提取方法与常用的DF、CHI、CC等特征提取方法进行对比实验,利用多项常用的分类效果评价指标对实验结果进行综合性评价分析。实验结果表明SP方法通过提取高质量的特征词,构造低维的特征向量,能够有效地降低特征空间维度,在中文文本分类中表现出良好的特征提取效果,反映了类别间的差异度。
其他文献
中华苏维埃检察制度借鉴和仿效了前苏联检察制度的模式与经验,但仍主要是立足于中国实际的制度创新。党的群众观点和路线,形塑了中华苏维埃检察制度的组织规则、工作内容和方
从有关怀旧研究、怀旧营销的相关文献可知,消费者怀旧与消费者细分、品牌复兴和广告策略具有密切的联系。本文利用文献回顾的方式,对消费者怀旧进行了细分,并在此基础上从消
以纳米TiO2为载体,通过浸渍法制备一系列改性Mn-Ce/TiO2脱硝催化剂.通过实验考察不同元素组分催化剂的脱硝活性,同时探讨金属氧化物掺杂对提高催化剂低温脱硝活性的机理.活性
《红楼梦》回目语言探美刘永良《红楼梦》的回目别具特色,异彩纷呈,美不胜收,具有很高的艺术成就和审美价值。研究界对此已有一些论述,但一般都谈得很宽泛。因此,本文拟就《红楼梦
消费模式对碳排放具有重要影响,加强消费行为的引导和管制,构建低碳消费模式已经成为一个亟待突破的重大课题。为了将消费因素纳入减排框架,本文基于总量管制和交易机制(Cap-
随着人们生活水平的逐步提高,消费者的消费意识日益增强,消费者的消费心理对消费者购买行为的影响也显得越来越大,商家能否更好地分析和把握超市顾客的消费心理及行为特征显
利用自动站气温资料计算了深圳市的城市热岛强度,并分析了海陆分布、人口密度、道路占地面积百分比及用电负荷等因素对深圳城市热岛效应的影响.结果表明,海陆分布是决定深圳
债的相对性原则决定了在一般情况下,债仅对债权债务关系中的双方当事人发生效力而对于关系外的第三人不发生效力,但是,该原则存在例外。为了贯彻私法自治,为了保护承租人的利
税收筹划与企业财务管理相互联系、相互影响。本文进行税收筹划与企业财务管理的相关性分析,并详细阐述了税收筹划在企业财务管理中的应用以及企业财务风险管理理论在税收筹
薪酬是指企业为获得职工提供的服务而给予职工的各种形式的报酬以及其他相关支出。薪酬管理是现代企业管理制度中的重要组成部分,是基础性和关键性工作,在公司经营业绩分析中
期刊