论文部分内容阅读
随着中国电影产业的快速发展和人们生活水平的不断提高,看电影逐渐成为人们闲暇时的主要活动之一。每当观影前,人们都会面临电影和影院的选择决策问题。国内一些知名的电影社区网站或者APP都包含丰富的电影评论信息,为广大用户做出观影决策提供重要依据。对这些用户反馈的包含观影感受的评论进行情感分析研究,在理论分析和设计应用上都具有极其重要的意义。目前国内电影领域的情感分析研究不多,未能很好的利用影评评论信息。针对以上问题,本文以豆瓣电影为语料源,面向中文电影评论进行情感分析,通过改进特征选择和特征权重算法提高情感分析的效率,并基于情感分析技术构建电影评分综合模型,主要成果如下:1.总结了情感分析领域的研究概况,介绍了情感分析的主要步骤,包括文本预处理、文本表示、特征选择算法、特征权重算法、文本分类算法、情感分析的一般评估指标,并介绍了爬虫技术及其一般框架。详细介绍了用于情感分析的SVM算法、朴素贝叶斯算法以及kNN算法,对三种算法的优缺点进行了分析。2.分析豆瓣电影网站的影评数据,针对其网站的特殊性设计了基于Scrapy的网络爬虫,详细说明了Scrapy框架的各个组件的功能,并进行实验获取到豆瓣电影评论的数据,用于本文之后的实验分析。3.经典信息增益特征选择算法没有考虑特征项在类间和类内的位置分布情况,因此本文提出了基于类间集中度和类内分散度的信息增益算法,考虑特征分布位置的DWIG算法能够有效的对特征项的重要程度排序。并且针对TFIDF算法IDF项导致的权重分配不合理问题,提出了基于位置分布权重的TF-IDF-DW算法。最后在电影影评数据上进行实验并与经典的算法进行比较,从准确率、召回率、F值三方面指标验证了本文提出算法的有效性。4.考虑到电影评论与用户打分情感不一致的问题,提出基于情感分析的FRRSA影评评分算法,得到更加符合用户情感的影评评分。并综合考虑每条影评的评论时间、点赞人数、用户评论、用户评分等影评信息构建了CRMDM电影评分模型。利用豆瓣电影的影评数据进行实验仿真,从多方面说明本文提出的CRMDM模型能更好的帮助用户做观影决策。