结合领域知识的情感原因发现研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jianming_zhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交媒体已经从官方的消息发布平台发展成为大众交流和情感表达平台。基于自然语言处理技术的社交媒体分析、观点抽取和情感分析等研究显得愈发重要。在发现社交媒体文本中蕴含的情感状态基础上,旨在深入探究情感触发机制的情感原因发现问题具有重大的学术价值和应用前景。现有的情感原因发现方法主要包括基于规则的方法、基于机器学习的方法和基于深度学习的方法。基于规则的方法受限于人工总结的规则质量和覆盖率。基于机器学习的方法依赖于人工筛选的特征,不易建立端到端的学习模型。基于深度学习的方法则存在学习过程不易控制、可解释性差和对高质量标注数据依赖的不足。针对以上问题,本文在现有的深度学习模型基础上引入层次注意力机制以进一步提高文本的表示能力,同时通过知识蒸馏技术引入领域知识,从而改善模型的可控性。现有的情感原因发现方法往往存在忽略子句序列关系特征的不足。为此,本文提出一种结合位置编码和残差结构的层次注意力网络模型。该模型采用层次结构的双向门限循环单元(Bidirectional Gated Recurrent Unit,Bi-GRU)捕获词级和子句级的序列特征,利用注意力机制捕获子句与情感表达之间的潜层语义表示。同时利用位置编码学习在情感原因发现任务中比较重要的子句相对位置信息。最后引入残差结构获得子句的最终语义表示用于分类。在EMNLP2016中文情感原因发现数据集上的实验结果显示,基于层次注意力机制和Bi-GRU的模型相对基线模型均取得了明显的性能提升。相比当前性能最优的方法提升了0.004。目前主流的深度学习模型存在数据依赖性高和可控性低的缺点。为此,本文进一步研究了结合领域知识的情感原因发现方法,提出了两种在深度学习模型中引入领域知识的方法。一是利用预训练语言模型将大量无标注文本中蕴含的关系型领域知识迁移到当前的模型中,强化模型的语言表示学习能力。二是用情感原因发现领域的人工规则指导神经网络的训练,并利用知识蒸馏技术将规则带来的逻辑型领域知识迁移到网络参数中。实验结果显示,在引入领域知识后,两种方法的性能都明显超过了当前最优方法,F1值提升分别为0.18和0.05,达到了目前已知的最高性能。
其他文献
和平不仅是人们的愿望和期待,更应当是人类的权利诉求。2016年由联合国大会通过的《联合国和平权利宣言》进一步确认和发展了和平权,这不仅是世界和平事业发展的一大进步,更
随着城市化进程的发展,地面交通的拥堵情况不断加重,地铁由于其准时、快速且便捷等优点,近年得到飞速发展。与此同时,地铁站内的空气品质也逐步受到人们的关注,相较于室外,地
顾客不仅是商品的接受者,还是企业的合作者和价值共创者,挖掘顾客的市场价值成为企业获取竞争力的重要源泉。技术的日新月异和消费升级使得顾客满意战略遭遇到“满意度陷阱”
近些年来,视觉里程计方法在移动机器人、增强现实、虚拟现实、无人机和无人车等领域受到了广泛的关注。目前视觉里程计方法中基于点特征的方法被大量应用,但是其缺点是依赖场
参考作物蒸散量(ET0)是水文与水资源管理的一个主要研究领域,特别是在农业灌溉方面,ET0的准确计算能够为合理规划灌区、制定灌溉计划、水资源优化配置等提供理论依据。FAO P-M
随着物联网技术的发展,基于位置的服务和技术得到越来越广泛的应用,人们对定位和导航的需求迅速增长。由于目前常见的卫星定位技术在室内环境中无法实现精确的定位,室内定位
深度学习方法在计算机视觉各领域飞速发展,但是通常需要海量的标注样本对深度模型加以训练。在很多应用场景下,获取大量标注数据成本高昂。所以,从少量训练样本中学习并识别
分布式电源(Distributed Genration,DG)的大规模接入,将加大电力传输方向的不确定性,进而对电网的可靠运行、电能质量等造成不利影响,使得DG在电网中的渗透率受到限制。为解
“公众参与立法”又可称为“公众立法参与”或“立法公众参与”。公众参与立法即公众在立法领域的参与活动,将公共事务的范围限制于立法事务,可以视为“立法参与”和“公众参
近年来,中俄文化交流日益密切,翻译成汉语的俄语作品也越来越多,笔者节选苏联作家尤里·鲍里索维奇·留里科夫的《爱情的蜜汁与毒药》进行翻译,作家在写爱情的时候对一些社会