论文部分内容阅读
不可否认互联网已经成为人们日常生活的一部分,人们越来越倾向于借助各种互联网应用进行娱乐、消费、学习和工作等。随着互联网产业的迅猛发展和不断完善,各类互联网产品都开通了评论功能,大量的产品评论数据也由此而产生。借助情感分析模型来这处理这些评论数据,能够高效快捷的帮助商业组织了解用户对于产品的情感态度和产品可能存在的问题,进而不断完善产品功能或性能,提高服务质量,吸引更多用户。本文针对中文产品评论数据的特点,设计了一种情感分析模型。该模型能够对评论数据进行情感极性的分类并挖掘出可能存在的用户反映突出的问题点。本文首先介绍了情感分析的研究背景及意义、国内外研究现状和本课题的研究工作。然后分别介绍了产品评论数据的特点、针对该产品评论数据的预处理工作、与构建情感分析模型有关的理论知识。最后阐述了本文的情感分析模型,该模型分为情感分类和突出问题点挖掘两部分:(1)采用CHI特征提取算法、改进的C-TF-IDF特征权重计算算法和支持向量机构建了情感分类模型,并阐述了模型的训练方法和相关的情感分类策略。C-TF-IDF基于本文构建的情感词典计算特征权重,能够弥补TF-IDF特征权重计算算法无法区别对待情感词和非情感词的缺点。首先实验比较分析了一步三分法和二步二分法的情感分类策略对最终分类效果的影响,发现一步三分法更适合于产品评论数据的情感分类;然后基于一步三分法的分类策略实验比较分析了 C-TF-IDF和TF-IDF在不同的CHI提取特征占比情况下的最终分类效果;最后给出的实验数据表明,C-TF-IDF比TF-IDF更适合于中文产品评论数据的情感分类任务,分类评价指标F_Score可最低提高1.584%,最大提高 2.267%。(2)在情感分类的基础上,提出了一种基于规则匹配的突出问题点挖掘算法。该算法先采用基于规则匹配的方法定位问题点,然后基于文本聚类算法挖掘突出问题点。基于规则匹配定位问题点主要是利用正则表达式来搜索问题点所对应的关键词,从而确认评论数据是否包含相应的问题类型。该方法不需额外训练模型,简单易行,可扩展性强。基于文本聚类的突出问题点挖掘算法考虑了评论数据之间的相互联系,以聚类的类簇为单位统计问题点,进而确定突出问题点。在具有极端问题点分布和概念广泛的问题类型的数据集上,该突出问题点挖掘算法在一定程度上能有效稳定地工作。