利用词语间关系和两步策略的中文短文体分类研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:heermeisi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本分类问题是对长度短的文本(通常文本长度小于160字符)进行自动分类,它是基于短文本应用领域必须解决的具有挑战性的基础性关键问题之一,具有重要的应用前景。   在对短文本分类研究现状进行分析研究后,本文的工作围绕着短文本分类的三个难点:(1)短文本具有的固有属性:短文本所描述概念的信号弱,这是由短文本的长度短引起的,它使短文本分类具有极大的挑战性;(2)短文本数据通常具有高的类间模糊度:不同类别间的文本使用了许多相同或者相近的词语,但它们表达的意思不相同;(3)短文本的大数据量和复杂性特性导致采用常用的长文本分类技术不能达到很高的性能。针对文本分类的两大重要环节(特征的选择,分类器的构造)对短文本分类进行了研究:   围绕短文本描述概念信息弱,短文本数据具有高的类间模糊度的特点,本文提出了利用知网和依存关系技术抽取真实语料中具有关系的词对作为分类所需的特征构造特征空间进行短文本分类,寻找对文本分类有效的关系,利用这些关系可以增强短文本的类别区分度。实验结果表明,具有关系的词对具有很强的类别区分度,关系能够作为有效的分类特征应用于中文短文本分类中。   围绕提高短文本分类性能的问题,针对短文本的特性,本文研究了两步思想用于短文本分类的三个关键问题,提出了组合朴素贝叶斯(NB)和K近邻(KNN)分类器的两步中文短文本分类方法。实验结果表明,相对NB、KNN和支持向量机(SVM),该方法可获得较高的分类性能。
其他文献
随着无线通信技术的发展和便携设备的不断普及,人们对新的移动通信网络的需求与日俱增。作为一种多跳、无中心、自组织网络技术,Ad hoc网络变得越来越重要了。目前其研究工作
学位
随着Internet的普及和应用,电子商务以其成本低廉、便捷、快速、不受时空限制等优点风靡全球。电子商务为用户提供越来越多选择的同时,其结构也变得更加复杂和庞大。一方面,用户
学位
进化规划是一种随机优化方法,它的目标是通过进化达到行为智能化。但在最初的发展中,进化规划并未得到足够的重视。直到20世纪90年代,进化规划方法得到改善,并作为进化算法的
随着计算机应用的普及,信息系统产生的数据量日益增大,迫切需要高效的数据挖掘工具,从大量原始数据中寻找有价值的知识模式。聚类分析是数据挖掘的重要工作之一。二元数据是一种
学位
对等(P2P)计算在管理和利用日益增长的分布式信息和计算资源方面表现出了良好的性能,所以基于P2P计算的新型分布式系统(P2P系统)成为Internet最流行的系统之一。特别是Gnutel
学位
大米是最重要的粮食品种之一,目前我国对大米的质量检测仍然停留在人工观察阶段,这种检测方式缺乏客观性与准确性,而且难以适应实际生活中的大批量的检测。针对这些问题本文
学位
随着信息与通信技术的发展、数字家庭理念的普及,家庭网关产品将走向一个更高、更先进、涉及面更广的层次,以满足数字家庭的不同功能和业务需求。智能化、集成化产品将成为家
学位
媒体服务器是国际软交换联盟(ISC)和国际互联网工程专家组(IETF)使用的术语,在第三代通信伙伴计划(3GPP)中,称为媒体资源功能(MRF)。媒体服务器位于NGN中的IP核心网上,可为软
如何将已有的面向对象系统转化为面向Aspeet系统,进而提高原有系统的可复用性、可维护性以及可扩展性已成为AOP(Aspect-OrientedProgramming,面向Aspect编程)领域的热点问题。
学位
Ad Hoc网络是国内外无线移动通信领域的研究热点,网络无需设置中心控制点,所有节点地位平等,各个节点不仅具有普通移动终端的功能,而且具有报文转发能力,通过分层的网络协议
学位