论文部分内容阅读
随着互联网的发展,越来越多的用户倾向于在各种网站上发表自己的评论,分享自己的经验。这些评论文本表达了评论者的观点和情感,人们也习惯于从各种评论文本中获取信息,寻找一些参考意见。分析互联网上的评论文本,挖掘出其中潜在的信息,具有巨大的应用价值。但随着互联网信息的増长,评论信息的数据量越来越大,人们急需一种自动化的工具在大量的评论文本中迅速获取真正需要的信息。如何对这些包含大量信息的互联网评论文本进行情感分类、挖掘其中蕴含的情感信息是自然语言处理领域的研究难点,文本情感分析相关技术应运而生。本文选择以中文电影评论进行研究,首先将评论文本利用基于隐马尔可夫模型的Viterbi算法进行预处理,对处理之后的文本利用点间互信息检索的主客观文本分类方法,排除客观(剧情叙述)的部分,将主观句子抽取出来作为每篇评论的主观代表句。之后基于概念网络与遗传算法提出了一个能有效分析主观评论文本的情感分析方法,利用概念网络求出主观情感的特征值,并采用遗传算法训练出一个最优的转换不同意见倾向的权重表,基于情感的特征值和转换不同意见倾向的权重表得出每个句子的意见倾向数值,从而判断出每个句子的情感倾向。本文利用Python抓取的中文电影评论信息,分别对基于点间互信息检索的主客观文本分类方法和基于概念网络与遗传算法提出的情感分析方法做了验证。实验证明对将评论文本中的主观文本进行情感分析与直接对评论文本做情感分析能够更准确的找到评论者的意见倾向。另外本文也提出了一个建立情感指标的方法,该指标能够提供一个直观方便的实时情感指标的数值为使用者作参考。