论文部分内容阅读
在电子商务大潮席卷世界的今天,如何快速、准确地收集到互联网上商品的评论信息,对商家掌握用户的喜好变化和潜在用户了解商品的流行趋势都具有重要的意义。如果单纯地依靠人工对这些评论性信息进行收集、分析和整理,显然是低效和昂贵的。而可以自动、有效地对这些信息进行处理的文本倾向性分析技术,已经成为当前自然语言处理领域中具有极高应用价值的研究热点。本文针对中文的商品评论倾向性分析系统所涉及的三项关键性技术:中文句子倾向性检测、商品属性词和评价情感词抽取以及情感词的极性判别展开了研究。(1)中文句子倾向性检测提出了一种利用自适应算法和多分类器融合框架的跨语言句子倾向性检测方法。首先,通过多翻译引擎服务将英文训练语料翻译为多份中文训练语料,以消除英文训练语料与中文测试语料的隔阂;其次,在多个分类器的训练过程中,引入了自适应算法,以提高分类器的精度;最后,对多个分类器进行融合,来提高分类结果的稳定性。在选用NTCIR英文语料作为训练语料、NTCIR中文语料作为测试语料时,句子倾向性检测的F-measure值达到了65.55%,接近实验设定的上限67.35%。(2)商品属性词和评价情感词抽取提出了一种基于词性关系模板的商品属性词和评价情感词同步抽取算法。为了测试该算法的有效性,设计了一套新的语料标注规范,并依据规范建立了相应的语料集。首先,通过有监督的序列规则挖掘算法从训练样本中挖掘出可能的词性依存关系模板;然后,利用高置信度的模板在测试样本中抽取出商品属性词和评价情感词二元组。在所设定的四个领域中进行实验,结果平均准确率达到54.18%,召回率为29.45%。(3)情感词的极性判别提出了一种基于PageRank算法的情感词极性判别方法。利用训练域种子情感词准确极性和测试域情感词临时极性来实现对测试域情感词的极性判别。实验结果表明,情感词的判别准确率可以达到90%以上。最后,综合上述研究,设计并实现了一套面向汽车领域的商品评论倾向性分析系统。