【摘 要】
:
文本类别的识别,广泛的应用于各个领域,常见的有应用于电商平台的商品自动识别、新闻资讯平台的新闻类别自动识别等。优秀的文本类别识别算法不仅可以节省大量的人力,还可以避免人工识别的主观性。文本类别的识别主要是包括单标签的识别和多标签的识别。相对于单标签的识别,多标签的文本类别的识别,应用更加广泛,但也更加具有挑战性。本文主要是讨论了多标签类别识别的研究意义以及发展现状。多标签文本类别识别目前主流的方法
论文部分内容阅读
文本类别的识别,广泛的应用于各个领域,常见的有应用于电商平台的商品自动识别、新闻资讯平台的新闻类别自动识别等。优秀的文本类别识别算法不仅可以节省大量的人力,还可以避免人工识别的主观性。文本类别的识别主要是包括单标签的识别和多标签的识别。相对于单标签的识别,多标签的文本类别的识别,应用更加广泛,但也更加具有挑战性。本文主要是讨论了多标签类别识别的研究意义以及发展现状。多标签文本类别识别目前主流的方法主要有两种,一种是使用分类模型对多标签类别进行分类,另一种是使用序列到序列(简称seq2seq)的生成模型来进行文本类别生成。文本多标签类别生成模型相对于分类模型能够更好的把握标签之间的联系。本文主要是针对现有的seq2seq的算法的缺点进行改进,提高模型的准确率。具体主要是针对以下几个缺点进行了改进:针对seq2seq模型中容易出现生成低频词作为生成标签的情况,在数据预处理阶段,使用命名实体识别的方法进行数据预处理,将识别之后的结果和原来的词向量或者字向量一起作为编码器的输入部分,增加网络的先验知识,防止解码器输出低频词。针对seq2seq模型容易出现序列重复生成的问题,对解码的结果使用判别器进行判断是否重复生成,使其可以对注意力机制进行限制。使模型在编码和解码的时候,避免重复关注同样的词,进而避免重复标签的生成。针对模型在测试阶段容易出现曝光偏差的问题,本文采取自强化学习的训练方式进行训练模型。模型在训练的时候,以最小化生成序列和标签之间的hanming-loss为目标,使模型生成的标签尽量的拟合到标准的标签上,生成更准确的标签序列。本文使用公开数据集,通过实验对比了常用的文本多标签分类模型以及seq2seq模型,证明本文改进的模型在多个评价指标上超过现有的模型。
其他文献
千兆赫兹(GHz)超短脉冲的脉冲宽度在皮秒(ps)至飞秒(fs)之间的量级,具有较高的脉冲重复频率,宽的频谱和较高的峰值功率。它们用于激光光谱,生物医学应用,光通信和大容量通信系统,在其他许多领域也有广泛的用途。自半导体可饱和吸收体发明以来,其所具有的紧凑性,廉价等优点,使得利用它实现的飞秒和皮秒锁模激光器,在不同的领域得到了飞速的发展和广泛的应用。垂直外腔面发射激光器结合了半导体激光器和固体激光
现代社会对于自然科学的研究逐渐加深,其中,对地震学的研究已经从单一的观测逐渐演变成抗震、防震等,充分利用震情社会资源信息,合理采用新方法来协助政府及地震部门提高其在突发地震事件上的快速响应能力,有效对震后风险进行规避,向民众提供有效的相关信息与紧急救援的重要性尤为突出。随着民众越来越多地在社区论坛、微博等信息网站进行信息发布,震情社会资源信息大量分布于上述信息网站以及用户的智能移动终端。在这样的背
为贯彻落实“立德树人”的教育方针,《普通高中地理课程标准(2017年版)》提出要培养学生必备的地理学科核心素养。阅读文献发现,国内外关于综合思维的研究,根本上都认为综合思维是地理学习的重要品质与能力,本文立意在如何培养高中学生的地理综合思维能力,并以乌鲁木齐市某中学为例,对该校高一年级的综合思维能力的培养现状进行研究,以期对该校的高中地理教学有一定的促进作用。通过对教材和高考试题的梳理,发现必修一
随着社会经济的快速发展人们对于电子产品的购买量急剧增长,随之而来的是电子产品使用后被丢弃,造成大量的电子垃圾,对人们的生存环境造成极大的影响,所以研究出可生物降解的电子元件对环境的保护具有重要意义。同时,我国关于在生物材料上制备氧化物半导体材料的相关工作正在进行,但尚处于起步阶段,在生物衬底上制备的电子元件具有生物可降解、生物相容性好等优势,可以应用于生物医学传感器、植入式电子系统、电子皮肤、生物
智能化的茶叶识别作为现代农业发展的一部分,一直是人们关注的焦点。随着人工智能时代的到来和信息技术的发展,茶叶检测部门和茶叶企业如何使用计算机技术对鲜茶品种进行鉴定,快速、准确的区别出茶叶的真假,同时节约茶叶检测成本,其重点在于提高茶叶识别的准确率。因此,通过计算机技术提高茶叶识别准确率显得极为重要。近年来,茶叶识别一直是计算机视觉领域的研究热点。本文将学习功能和神经科学相结合,创造性地应用于茶叶识
课题来源于导师的科研项目,主要围绕室内公共场所安全检查THz(太赫兹)成像雷达的回波信号处理问题而展开研究。相控阵THz室内成像雷达系统是目前研究热点之一,雷达结构与回波信号处理方法研究是研制相控阵THz室内成像雷达系统基础。基于项目的实际需求,本文开展的研究工作如下:1.探讨太赫兹雷达系统的结构。在综述了国内外文献成果的基础上,基于项目的需求,分析了太赫兹雷达系统的组成,通过探讨常规相参雷达、基
近几年,软件定义网络(Software Defined Network,SDN)技术发展迅速,SDN实现了控制层和数据层的解耦,控制层负责对网络的控制,并维护全局的网络拓扑视图,数据层负责数据的转发。控制层和数据层的解耦简化了网络的管理,实现了网络的可编程,为网络新业务的部署以及网络的快速创新提供了条件。在SDN网络中控制层是整个网络的核心,一方面控制层需要负责管理数据层的转发设备;另一方面,控制
目前的世界经济环境下,全球经济一体化和企业规模化已经成为当前世界经济最显著的发展特征。全球化竞争成为常态,企业的跨国竞争愈加激烈,企业收购兼并、内部整合等全球扩张