基于深度学习的文本情感分类技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wsttkl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,人们对于情感的表达尤为重视,中老年人喜好看新闻短评,时不时会发表自己的态度和观点;年轻人喜好在微博、知乎等平台分享所见所闻。以及一些短视频社交软件的不断涌现,比如抖音、Vlog等,人们表达情感的欲望更加强烈,情绪在生活中的作用也越来越不容忽视。良好的情绪,能帮助自己更好地完成工作;消极的情绪,对身体机能有一定伤害的同时,甚至还会影响健康人格的形成。随着疫情防控常态化,人们对心理健康的关注度上升,基于此本文旨在开发一个心理健康的情感分类系统,通过文本分析使用者的心理健康情况,以帮助医生筛查抑郁症患者或者使用者了解自己的健康状况。本文在已有研究的基础上,设计了三个情感分类研究模型,并实现了一个情感分类系统实现对模型的应用。当下,关于抑郁症情感分类的研究较少,且大多数模型采用的技术为模型融合或者多模态,忽略了文本特征的重要性,导致情感分类的精准度无法提升。为了解决这些问题,本文首先提出了三个情感分类模型:一是基于融合词级和句级特征的双向门控循环单元模型,它是Char SCNN模型的改进,分别在词级和句级使用注意力机制提取词向量特征和句向量特征,以获得更多的情感语义信息,弥补了CNN网络不能很好提取上下文语义关系的缺陷;二是基于知识蒸馏的双向长短期记忆网络模型,采用BERT作为老师模型监督学生模型(双向长短期记忆网络)学习,蒸馏技术在一定程度上压缩了学生模型,提高了模型的可移植性;三是基于焦点损失的注意力双向长短期记忆网络模型,在第二种模型基础上,采用焦点损失函数解决了情感数据抑郁样本和未抑郁样本不均衡的问题。其次,本文使用DAIC语料库对本文设计的三种情感分类模型做了对比实验。实验证明了三个模型都能顺利完成情感分类,通过对比其他研究者在该数据集上的实验结果,其中基于焦点损失的注意力双向长短期记忆网络模型效果最优,取得精准率、召回率、F1值分别为0.78、0.81、0.80的好成绩。除此之外,本文使用的数据集是对真实人群采访获得的,能够反映在实际生活中患有抑郁症和未患有抑郁症人群的比例,基于焦点损失的Att-Bi LSTM模型在心理健康数据集上精准率能够达到78%,说明其具有一定的可用性和有效性,能够用于心理健康筛查系统完成情感分类任务。最后,本文开发并实现了心理健康情感分类系统,包括三个主要功能模块:量表测评、开放问答、报告展示。在量表测评模块,多种类型量表可供用户选择,用户以填写问卷的方式答题;在开放问答模块,用户通过与机器人对话完成问答操作,后台的模型根据用户回答的文本输出结果;在报告展示模块,用户可以在这里查看自己的量表测评报告和开放问答报告。
其他文献
人对机器人的信任程度很大程度上会影响到人机协作的效果。目前为止,国内外对于人机的信任度研究成果有限,但是人机的信任度研究已经逐渐成为国内外一个热点问题,而基于外骨骼机器人的人机信任程度研究更是一片空白。随着截瘫助行外骨骼机器人临床测试工作的深入,其信任度对于人机协作效果的影响也逐渐凸显出来。信任作为人的主观因素,对其影响因素的分析与测量是研究的前提。本文针对该问题,对人与外骨骼系统的信任度影响因素
目标检测是计算机视觉领域最重要的任务之一,是其他更高级任务(例如实例分割、行人重识别等)的基础,在智能监控、无人驾驶和医疗影像识别等领域已经得到广泛的应用。然而由于小尺寸目标本身存在的特性(像素点少、边缘模糊等),主流的目标检测算法对小目标的检测仍然存在漏检率高和识别率低等问题。为了解决小目标检测中存在的问题,本文在基于关键点的目标检测算法上展开研究,分别从以下三个方面对现有工作进行改进:(1)提
随着计算流体力学(CFD)应用的精度需求不断提升,网格量越来越大,CFD产生的流场数据量达到了TB甚至PB量级。流场数据的时空复杂性提升,会导致时空特征难以辨认,也需要研究者耗费更多的时间人工抽取关键信息帮助认知流场中的复杂流动机理。如何自动抽取流场特征及关键时间步,将成为研究的热点,也是研究者面临的巨大挑战。近年来,深度学习的快速发展给各领域解决问题提供了新的思路。深度学习技术可以对海量数据进行
随着互联网技术的高速进步,传统工业领域应用互联网技术的情况越来越普遍。工业系统中数据的重要性不言而喻,而传统行业中的企业在数据管理方面能力的欠缺以及数据管理工具的缺失,加之数据来源多样化且异构性高,导致大量工业数据或是质量不高、或是同一企业分布在不同业务系统中的数据之间形成信息孤岛等等,使得数据中的信息得不到有效利用,这其中蕴藏的大量宝贵财富被浪费。针对上述场景,如何高效地集成及清洗多源异构数据,
推荐技术可以发掘用户感兴趣的商品,已经被应用到了互联网的各个领域。一般的推荐系统,通常基于用户的完整个人信息和历史行为做出推荐决策。但在某些情况下,用户的登录和访问是匿名的,其个人信息和长期配置文件往往不能直接获取,并且用户的兴趣又是动态变化的,具有较强的即时性,因此,需要考虑基于用户当前正在进行的会话(Session,又称匿名会话)做出推荐决策,即会话推荐(Session-based Recom
同步理论的起源来自于17世纪C.Huygens发现的单摆同步现象,在这之后的数百年里,同步现象被大量的学者发展和完善,并在众多领域中展现了其应用价值。近些年来,研究人员在微观尺度下观察到了类似的同步现象。依托量子力学的独特性质,使经典同步理论很难准确的描述和分析量子系统的同步现象。所以,量子同步理论成为了一个新的研究热点。量子同步理论作为量子力学、信息学与控制论的交叉学科,其主要研究目标使给出量子
建立可以与人类进行自然交流的智能聊天机器人一直是人工智能领域的巨大挑战。特别是开放域对话系统长期受到语料库和建模方法的限制,难以实现没有任何场景及话题约束的自由聊天。随着深度学习与大数据技术的发展,一种基于深度学习的回复生成方法被提出。该方法建立的聊天机器人可以与聊天者就任意感兴趣的话题进行聊天,具有良好的扩展性。然而这种基于深度学习模型的序列到序列的建模方法利用的是最大似然概率来生成回复语句的每
精神分裂症(Schizophrenia,SCZ)是一种具有严重危害性的慢性精神类疾病,可能给个人及家庭甚至社会带来沉重负担。目前,SCZ的病因和发病机制不完全清楚,临床主要依靠医生经验及患者与家属的病情陈述进行诊断与疗效评估,缺乏客观的评判指标。因此,寻找SCZ的客观电生理标志物以改善SCZ诊断及疗效评估,具有重要的临床意义。临床治疗SCZ主要以抗精神分裂症药物为主。本文针对服用氯氮平的SCZ患者
为了实现半实物射频仿真系统中近场效应误差更高效与更高精度的修正,获得三元组单元馈电的精确控制参数。本文系统的分析了已建立的修正流程和相关原理,针对现行方案存在的优化精度有限且计算效率低的问题提出对应的改进思路,从高精度智能反演算法和高效电磁正演建模两方面对修正方案进行了系统的优化设计和验证考察。对于修正方案中初始幅、相参数提取所涉及的反向优化算法,结合坡印廷矢量公式分别研究了基于PSO算法和PSO
无监督域适应(Unsupervised domain adaptation,UDA)是一种通过从有标注的源域里获得知识,并把知识迁移到缺乏标注的目标域上的机器学习方法。现主流域适应研究关注于对齐两个域的特征分布,借此希望在源域训练的分类器能适用于目标域数据。但这些方法通常存在两个缺陷:(1)分类器偏向源域数据:大部分UDA方法只考虑最小化两个域的差异和源域的分类损失,而不对分类器施加其他约束。所以