面向中文产品评论数据的情感分析模型设计及评估

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:leolee19820604
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不可否认互联网已经成为人们日常生活的一部分,人们越来越倾向于借助各种互联网应用进行娱乐、消费、学习和工作等。随着互联网产业的迅猛发展和不断完善,各类互联网产品都开通了评论功能,大量的产品评论数据也由此而产生。借助情感分析模型来这处理这些评论数据,能够高效快捷的帮助商业组织了解用户对于产品的情感态度和产品可能存在的问题,进而不断完善产品功能或性能,提高服务质量,吸引更多用户。本文针对中文产品评论数据的特点,设计了一种情感分析模型。该模型能够对评论数据进行情感极性的分类并挖掘出可能存在的用户反映突出的问题点。本文首先介绍了情感分析的研究背景及意义、国内外研究现状和本课题的研究工作。然后分别介绍了产品评论数据的特点、针对该产品评论数据的预处理工作、与构建情感分析模型有关的理论知识。最后阐述了本文的情感分析模型,该模型分为情感分类和突出问题点挖掘两部分:(1)采用CHI特征提取算法、改进的C-TF-IDF特征权重计算算法和支持向量机构建了情感分类模型,并阐述了模型的训练方法和相关的情感分类策略。C-TF-IDF基于本文构建的情感词典计算特征权重,能够弥补TF-IDF特征权重计算算法无法区别对待情感词和非情感词的缺点。首先实验比较分析了一步三分法和二步二分法的情感分类策略对最终分类效果的影响,发现一步三分法更适合于产品评论数据的情感分类;然后基于一步三分法的分类策略实验比较分析了 C-TF-IDF和TF-IDF在不同的CHI提取特征占比情况下的最终分类效果;最后给出的实验数据表明,C-TF-IDF比TF-IDF更适合于中文产品评论数据的情感分类任务,分类评价指标F_Score可最低提高1.584%,最大提高 2.267%。(2)在情感分类的基础上,提出了一种基于规则匹配的突出问题点挖掘算法。该算法先采用基于规则匹配的方法定位问题点,然后基于文本聚类算法挖掘突出问题点。基于规则匹配定位问题点主要是利用正则表达式来搜索问题点所对应的关键词,从而确认评论数据是否包含相应的问题类型。该方法不需额外训练模型,简单易行,可扩展性强。基于文本聚类的突出问题点挖掘算法考虑了评论数据之间的相互联系,以聚类的类簇为单位统计问题点,进而确定突出问题点。在具有极端问题点分布和概念广泛的问题类型的数据集上,该突出问题点挖掘算法在一定程度上能有效稳定地工作。
其他文献
随着无线通信技术的飞速发展以及用户业务需求的不断丰富,人们对移动通信系统性能的要求越来越高。协作通信技术利用源节点与相邻节点相互协作以获得空间分集增益,从而有效扩
近年来,随着Android智能设备及Android应用程序的流行,Android应用版权侵犯问题频频发生,不仅严重危害到了应用开发者的利益,也给用户的手机安全带来了巨大威胁。作为数字水
随着互联网技术的蓬勃发展,互联网已成为人们生活和工作中重要的基础设施。为了解决当前网络架构的僵化问题,网络虚拟化技术受到了学术界广泛关注。为了更好的管理和运行网络
随着网络技术的快速发展和信息的爆炸增长,互联网发生了巨大的变化,网络规模越来越大,业务需求越来越丰富,用户的数量越来越多,原有的以“主机-主机”通信模式的网络架构已经
多输入多输出(Multiple-Input Multiple-Output, MIMO)技术通过多根天线并行发送和接收数据显著提高了系统的频谱效率和传输可靠性,因此一直以来都是通信领域的研究热点之一
随着未来5G无线网络业务的蓬勃发展与激增,涌现出的大量无线移动服务呈现出多样性,为之提供服务的无线通信网络的密集化及异构化成为发展的趋势。面对日益复杂的网络环境以及
随着互联网用户需求的不断增长,当前网络流量增长的速度超过了硬件性能提升的速度,同时用户间内容转发带来了大量重复流量。TCP/IP在移动性、可扩展性及安全性方面,也有很多
晶粒尺寸≥5μm的WC-Co超粗晶硬质合金具有优异的抗热疲劳、抗热冲击性能,因此在矿用和挖掘工具、冷镦模具、轧机轧辊等极端工况条件下服役的耐磨工模具领域得到了广泛应用。
随着科技的进步以及互联网的发展,各类信息的数量急剧增长,图像作为日常生活中很重要的一部分,在传递信息中的作用也越来越大,因此,计算机视觉在计算机领域中成为了不可或缺
将由河底泥制备的陶粒用于建筑材料中可实现建筑材料的绿色化和低成本化。近年来,建筑级3D打印凭借其无模化、快速化、自动化的优势发展迅速。建筑3D打印目前主要采用水泥基