基于生成式对抗网络与异质集成学习的文本情感分类研究

来源 :南京邮电大学 | 被引量 : 4次 | 上传用户:rg198938
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WEB2.0时代的飞速发展,人们获取信息的方式,已经由最初的报纸、期刊、广播等传统单向宣传媒介逐渐转变成新型互联网双向沟通媒介。电商、新闻、社交等互联网平台上出现大量的短文本评论,并呈现指数级增长的态势。如何对这类数据进行情感倾向分析和挖掘是自然语言处理(Natural Language Processing,NLP)领域的研究热点之一。该研究不仅可以创造巨大的商业价值,而且能为企业和政府机构的社会舆论监督提供十分重要的参考依据。针对该研究挑战,本文的主要研究工作和创新点如下:1、通过文本情感分类任务的相关研究发现,将循环神经网络(Recurrent Neural Network,RNN)和卷积神经网络(Convolutional Neural Network,CNN)进行合理地组合,可使得模型在学习过程中充分地综合其二者的优势性能。相对于仅使用其单一的模型来说,效果有显著提,但其中标准RNN和CNN分别存在梯度异常和重要性特征不明显等问题,因此本文首先将双向门控循环单元(Bidirectional Gated Recurrent Unit,Bi GRU)和深度循环神经网络(Deep Recurrent Neural Network,DRNN)结合为深度双向门控循环单元(Deep Bidirectional Gated Recurrent Unit,DBGRU)。通过在其网络层间设计了一种交替式方向的传播迭代模式进行改进,让模型在学习过程中不仅能够避免时间跨度过长导致信息参数更新不合理的问题,还能够将文本每一个方向的语义信息尽可能综合地保留,充分考虑了输入词的上下文信息,提升了对文本语义信息处理的效果;然后为了解决CNN训练过程中重要特征不明显的问题,将标准CNN的单特征卷积扩展为多特征卷积,同时在卷积层前使DBGRU的输出向量与词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)和情感注意力的融合特征向量进行乘积计算赋予额外权重,使其改进成为一种多特征卷积神经网络(Multi-Feature Convolutional Neural Network,MFCNN)。将分别使用词向量与字向量文本分布式表示通过DBGRU训练后获得的各时刻隐藏层输出状态输入至MFCNN中进行特征提取,最后将池化后的两种特征向量融合后进行情感分类。实验表明DBGRU-MFCNN相对于其他相关的情感分类模型能够进一步提高文本情感分类的精确度。2、鉴于生成对抗网络(Generative Adversarial Network,GAN)与变分自编码器(Variational Auto Encoder,VAE)在图像生成领域的卓越表现,本文尝试将二者进行结合后应用于文本处理领域,进而提出了变分自编码器-集成分类器对抗网络(Variational Auto Encoder Ensemble Classifier Generative Adversarial Network,VAE-ECGAN)。使用DBGRU-MFCNN模型作为GAN中的判别器(Discriminator,D)进行文本真伪判别,而VAE中编码器和解码器均采用双向长短时记忆网络(Bidirectional Long Short-Term Memory,Bi LSTM),同时加入了注意力机制使其能够有关注性地生成文本和提取文本的特征。另外为了能够生成指定类别的情感文本,本文基于辅助分类器生成对抗网络(Auxiliary Classifier GAN,ACGAN)加入了情感标签进行指导性训练,并且将DBGRU-MFCNN、朴素贝叶斯(Naive Bayesian,NB)模型、决策树(Decision Tree,DT)模型、支持向量机(Support Vector Machine,SVM)模型通过Stacking异质集成学习的方式进行结合来作为ACGAN的辅助情感分类器。最终实验表明VAE-ECGAN不仅使其通过对抗训练的集成情感分类模型在其分类性能方面更加优于DBGRU-MFCNN以及其他现有的情感分类模型,而且可以通过VAE生成较好表达效果的情感文本。通过以上两部分针对文本情感分类问题的研究结果可以得知,基于RNN和CNN的DBGRU-MFCNN要比单一模型的效果好,同时在文本特征学习的过程中,添加额外的权重可以让模型更加方便地关注到特征与类别的映射关系。将集成学习的思想融入进VAE和GAN中,能够让模型在文本情感分类性能方面相比于其他相关模型得到进一步提升,为基于深度学习的文本情感分类研究工作提供了更好的优化策略。
其他文献
随着科学技术和现代工业的快速发展,精密检测、精密加工、装备测试等工程领域对于高速度、高精度的位移参数测量系统有着愈发迫切的需求。激光测量技术作为一种高精度的非接
纳米定位平台在纳米测量领域具有举足轻重的地位。近年来,随着纳米技术的不断发展,对纳米定位平台的定位精度和体积提出了新的要求。激光干涉仪具有精度高、速度快的优点,可
目的:评价支架后扩张在ST段抬高型心肌梗死患者(ST-segment elevated myocardial infarction, STEMI)直接经皮冠状动脉介入治疗(primary percutaneous coronary intervention,简
西安的饮食文化历史悠久,关中小吃更是其中最璀璨的一颗明珠,广受大家所喜爱。作为西安市核心区域,Y区小餐饮业极为发达,品种多、数量大、分布广,从CBD到城乡结合部都有它的
近年来,人们的生活水平随着国民经济的迅速发展而快速提高,尤其体现在饮食方面,但许多人的饮食习惯并不合理,这导致我国糖尿病患病率快速上升。在预防及治疗糖尿病的过程中,饮食治疗是关键因素。饮食治疗主要依赖于个人对良好的饮食习惯的坚持,然而部分人群由于各种原因并不能长期坚持健康的饮食习惯。随着近红外光谱技术的发展,它被越来越广泛的应用到食品检测领域中。综上,本文设计了一套基于近红外光谱传感器的糖尿病患者
随着中国改革开放四十年来,中国改革已进入“深水期”。作为全面深化改革的重要组成部分,促进公益事业发展、不断满足人民群众日益增长的公益服务需求是进行事业单位改革的根
本文主要介绍日本目前推广应用的一种新型的桩荷载试验法(简称桩的新荷载试验法),其特点是在桩的顶端直接安装一种特制的油压千斤顶,迫行桩的承载力试验。取代以往的堆载法和
会议
养元饮品作为近年来成长较快的植物蛋白饮料类快消品上市公司,通过快速扩张和精准营销实现了高速增长,把“六个核桃”做成了家喻户晓的核桃乳产品,并实现了较高的毛利率、净利率,成为了行业内标杆。但从2016年起,养元饮品的发展逐渐步入了下降通道,其经营的主业“六个核桃”的产量和销量、产品销售收入、归属净利润以及加权净资产收益率等一系列关键性的指标数据,均呈现下滑态势,这究竟是行业的共性问题,还是养元饮品单
随着微电子器件集成度越来越高,互连导线尺寸逐渐减小到10纳米以下,亟需高性能的扩散阻挡层来阻止铜(Cu)互连导线与硅基体之间的互扩散来确保严酷工况下Cu互连导线的服役安全性及服役寿命。论文采用真空热压烧结方法制备了与Cu几乎不互溶的Ta-Ru合金靶材,研究了Ru含量对合金靶材物相组成、微观结构及力学性能的影响。采用反应磁控溅射方法在Si衬底上制备了Ta-Ru-N系列阻挡层,表征了阻挡层的物相结构、
黄金作为稀缺的战略性资源,是价值评定的标杆,国家经济实力的重要参考因素。其储量的高低甚至可以影响到国家经济和金融的稳定。尤其在当前黑天鹅事件频发,疫情在全球蔓延,原油价格战持续升温,全球经济风险加剧的背景下,黄金行业面临前所未有的发展机遇和挑战。经过几年的资源整合,我国逐渐形成了五大黄金企业为主导的竞争格局。但与国际排名前十的金企相比,仍存在大型黄金企业“大而不强”的问题。本文选取山金集团作为研究