中文文本情感分析中的特征选择和权重研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:ljq0310
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中国电影产业的快速发展和人们生活水平的不断提高,看电影逐渐成为人们闲暇时的主要活动之一。每当观影前,人们都会面临电影和影院的选择决策问题。国内一些知名的电影社区网站或者APP都包含丰富的电影评论信息,为广大用户做出观影决策提供重要依据。对这些用户反馈的包含观影感受的评论进行情感分析研究,在理论分析和设计应用上都具有极其重要的意义。目前国内电影领域的情感分析研究不多,未能很好的利用影评评论信息。针对以上问题,本文以豆瓣电影为语料源,面向中文电影评论进行情感分析,通过改进特征选择和特征权重算法提高情感分析的效率,并基于情感分析技术构建电影评分综合模型,主要成果如下:1.总结了情感分析领域的研究概况,介绍了情感分析的主要步骤,包括文本预处理、文本表示、特征选择算法、特征权重算法、文本分类算法、情感分析的一般评估指标,并介绍了爬虫技术及其一般框架。详细介绍了用于情感分析的SVM算法、朴素贝叶斯算法以及kNN算法,对三种算法的优缺点进行了分析。2.分析豆瓣电影网站的影评数据,针对其网站的特殊性设计了基于Scrapy的网络爬虫,详细说明了Scrapy框架的各个组件的功能,并进行实验获取到豆瓣电影评论的数据,用于本文之后的实验分析。3.经典信息增益特征选择算法没有考虑特征项在类间和类内的位置分布情况,因此本文提出了基于类间集中度和类内分散度的信息增益算法,考虑特征分布位置的DWIG算法能够有效的对特征项的重要程度排序。并且针对TFIDF算法IDF项导致的权重分配不合理问题,提出了基于位置分布权重的TF-IDF-DW算法。最后在电影影评数据上进行实验并与经典的算法进行比较,从准确率、召回率、F值三方面指标验证了本文提出算法的有效性。4.考虑到电影评论与用户打分情感不一致的问题,提出基于情感分析的FRRSA影评评分算法,得到更加符合用户情感的影评评分。并综合考虑每条影评的评论时间、点赞人数、用户评论、用户评分等影评信息构建了CRMDM电影评分模型。利用豆瓣电影的影评数据进行实验仿真,从多方面说明本文提出的CRMDM模型能更好的帮助用户做观影决策。
其他文献
当前属人民内部矛盾的不安定因素大量存在,其表现形式也愈来愈复杂,严重影响了社会政治稳定和治安稳定,公安机关作为维护稳定的专门机关,应依法妥善处理各种不安定因素。本文就不
从女性主义批评角度看,《荆棘鸟》中的玛丽·卡森这一女性形象在很大程度上解构了父权传统中的"女性神话",挑战了男性话语权的单一性地位。然而她这种反抗忽视了女性自身特点
目的:探讨不同中医证型肝硬化与血T细胞亚群、NK细胞、补体系统的关系。方法:对92例肝硬化患者进行中医分型,分为气滞湿阻型、肝脾血瘀型、脾肾阳虚型,并进行了外周血T细胞亚
当前利益格局调整过程中的关键问题是建立和完善相应的利益表达机制以化解严重的利益协调危机。强化中国工会利益表达功能,使其能够真正成为工人利益表达和实现的组织,不仅是
诗歌是与音乐有着某种同一关系的语言有机体,音乐性是诗歌区别于其他文学体裁的最主要特征。本文在阐述诗歌音乐性概念的基础上,通过分析诗歌的语言、语义以及诗歌的暗示性,
欧洲主要大国对特朗普威胁退出"伊朗核协议"感到十分不满和担忧,但又不得不与美国政府就此问题进行磋商和谈判。在特朗普做出是否退出"伊朗核协议"决定的前夕,美国、欧洲和伊
研究医用生物蛋白胶及其主体成分纤维蛋白原的潜在免疫原性。采用SDS-PAGE电泳、Western blot分离确定主体胶成分中的纤维蛋白原蛋白,建立间接ELISA法检测抗体条件;新西兰白