论文部分内容阅读
近几年,随着国内互联网技术的迅猛发展,几大电商如淘宝、京东等,正悄然改变着大众的生活方式;同时,随着微博等社交网站的崛起,国内互联网用户越来越多的在网络上发布自己的主观观点,产生了大量的中文评论文本。而这些富含大量信息的评论文本向中文情感信息抽取技术提出了新的挑战。情感信息抽取旨在抽取文本中同情感信息表达相关的重要元素。该任务的深入研究有很重要的理论研究意义和实用价值。本文针对中文文本的情感信息抽取,尤其是评价对象抽取任务展开研究,研究内容主要包括以下三个方面:首先,本文针对中文情感信息抽取语料缺乏的问题,提出了一套中文情感信息抽取语料标注体系,并构建一个规模较大、标注类型丰富的中文情感信息抽取语料库。除了常见语料库标注的情感倾向性、评价对象、情感词等信息外,重点标注了评价对象的省略、无情感词情感句表达及极性转移等情况。由语料信息统计可知,评价对象省略现象在中文情感表达中普遍存在,开展这方面的研究很有必要。本文所构建的中文文本语料库将为中文情感信息抽取任务提供语料资源基础。其次,本文提出了中文文本中评价对象省略识别方法。该方法将评价对象省略现象看做为一个二元分类问题,并考察当前句位置无关特征、当前句位置有关特征和上下文相关特征这三种不同类型的特征,应用到机器学习分类算法中。并且使用贪婪式的特征选择算法选取每个领域的特征集合。实验结果表明,本文提出的基于机器学习方法的评价对象省略识别方法能够获得较好的识别效果,最终选择的特征集合在三个不同领域都能够达到近80%的识别性能。最后,本文提出了一种结合省略识别的评价对象抽取方法。该方法的核心思想是利用元学习模型将基于CRFs的评价对象抽取模型与省略识别模型融合,利用省略信息来去除识别出的错误评价对象,用以提高评价对象的抽取性能。实验表明:本文的方法在训练样本较小的情况下能够提高评价对象抽取的性能。