中文评价对象抽取中省略现象研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:oceanspring
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,随着国内互联网技术的迅猛发展,几大电商如淘宝、京东等,正悄然改变着大众的生活方式;同时,随着微博等社交网站的崛起,国内互联网用户越来越多的在网络上发布自己的主观观点,产生了大量的中文评论文本。而这些富含大量信息的评论文本向中文情感信息抽取技术提出了新的挑战。情感信息抽取旨在抽取文本中同情感信息表达相关的重要元素。该任务的深入研究有很重要的理论研究意义和实用价值。本文针对中文文本的情感信息抽取,尤其是评价对象抽取任务展开研究,研究内容主要包括以下三个方面:首先,本文针对中文情感信息抽取语料缺乏的问题,提出了一套中文情感信息抽取语料标注体系,并构建一个规模较大、标注类型丰富的中文情感信息抽取语料库。除了常见语料库标注的情感倾向性、评价对象、情感词等信息外,重点标注了评价对象的省略、无情感词情感句表达及极性转移等情况。由语料信息统计可知,评价对象省略现象在中文情感表达中普遍存在,开展这方面的研究很有必要。本文所构建的中文文本语料库将为中文情感信息抽取任务提供语料资源基础。其次,本文提出了中文文本中评价对象省略识别方法。该方法将评价对象省略现象看做为一个二元分类问题,并考察当前句位置无关特征、当前句位置有关特征和上下文相关特征这三种不同类型的特征,应用到机器学习分类算法中。并且使用贪婪式的特征选择算法选取每个领域的特征集合。实验结果表明,本文提出的基于机器学习方法的评价对象省略识别方法能够获得较好的识别效果,最终选择的特征集合在三个不同领域都能够达到近80%的识别性能。最后,本文提出了一种结合省略识别的评价对象抽取方法。该方法的核心思想是利用元学习模型将基于CRFs的评价对象抽取模型与省略识别模型融合,利用省略信息来去除识别出的错误评价对象,用以提高评价对象的抽取性能。实验表明:本文的方法在训练样本较小的情况下能够提高评价对象抽取的性能。
其他文献
目前大多数移动终端采用的都是小型指纹传感器,只能捕捉到部分指纹图像,录入的部分指纹图像无法提供充足的细节点特征。因此,传统基于细节点的指纹匹配算法无法应用于移动终端。
人物行为识别是计算机视觉领域研究的基础任务和关键技术之一,被广泛应用于智能视频监控、高级人机交互、视频会议、基于行为的视频检索以及医疗诊断等。因此,研究人物行为特征
随着Internet的飞速发展,人们的工作生活越来越离不开互联网,截至2013年12月,中国网民规模达6.18亿,互联网普及率为45.8%。网民数量的急剧增加带来的庞大的访问流量给很多受
随着互联网技术和社交网络技术的飞速发展,用图交流已经成为当下最有效的沟通手段,因此利用机器模拟人脑对图像的理解和识别,具有广泛的社会应用价值。其中,相似图像的检索在图像
随着计算机互联网技术的高速发展,微博作为一种信息传播速度快、用户互动性强、信息实时性高的新型网络媒体很快得到人们的认可,成为人们了解时事信息、分享个人生活点滴重要平
学位
随着现代工业生产的迅速发展,人们的物质生活所需品日益丰富,生活质量极大地提高。与此同时,由于工业生产设备的大量投入使用,对灾难性事故危害的潜在风险的控制也成为了不容忽视的问题,人们对危害其生命、财产和环境等各类风险也越来越难于容忍。为了提高工业生产的安全性,通常采用安全仪表系统(Safety Instrumented System, SIS)在出现安全事故之前发挥其安全功能,避免安全事故的发生,或
当前,在互联网上传输的视频数据占据了网络流量的大约70%。毫不夸张的说,视频数据是大数据时代最大的数据。如何让计算机更好的看清与理解眼前的世界不是一个简单的问题,近年来也
基于监控场景下的行人重识别问题是当前计算机视觉领域研究的热点,主要任务是指行人在穿梭于监控场景中摄像机网络的视频或图片的匹配,特别是对于非重叠视域的多摄像机网络结构
随着信息技术的高速发展,传统医疗正在向更加电子化和数字化的方向发展。电子医疗档案是标准化的居民基本健康相关信息。它不但能为医疗工作者提供参考信息,还能和其他信息系