神经机器翻译中的胶囊路由自注意力网络

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wf931
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
注意到机器翻译领域取得的令人瞩目的成果,注意力机制及其变体的实现迅速成为神经网络的标准组件,比如当面对诸如文档分类,语音识别和许多其他自然语言处理的任务时,与以前的工作相比,注意力机制的应用帮助实现了卓越的模型性能。但是,大多数早期工作仅专注于在循环神经网络架构上实现注意力机制,例如LSTM和GRU,但它们存在缺乏并行计算支持的问题,这使得构建深度网络不切实际。为了解决上述问题,Vaswani等人提出了一种由多头自注意力支持的新颖的自注意力网络体系结构,该体系结构通过将输入序列并行投影到多个不同的子空间中来利用不同的头来捕获部分句子信息。尽管他们只在投影步骤上使用了简单的线性变换,但Transformer网络的出色性能仍然取得了巨大的成功。现有的大多数致力于改善多头注意机制的工作主要是尝试在每个独立的头上提取出更多信息的部分表示。Li等人提出了一种聚合多头注意力的输出表示的方法。Dou等人尝试动态聚合来自不同编码器层的输出表示之间的信息。所有这些工作大都集中在多头自注意力网络步骤的“之前”或“之后”,作为整个Transformer模型的重要组成部分,多头自注意力网络本身应予以更多关注。为了更强大地支持当前的Transformer,我们提出构造一个更具有一般形式的的上下文感知的自注意力网络,该模型可以学习到输入序列的更深层的上下文信息,这将有助于改善模型的最终性能。在本文中,我们提出了一种新颖的胶囊-Transformer,其中我们实现了一种称为胶囊路由自注意力网络的一般化自注意力网络,它通过将自注意力网络看作胶囊网络的一种特殊情况,将线性变换推广到更一般的胶囊路由算法。胶囊网络机制的最大区别之一是将基本处理单元从标量(单个神经元)变化为胶囊(神经元或向量集合)。受到这种胶囊处理想法的启发,我们首先将通过自注意力计算出的注意力权重集合类似地组织到各种包含初步语言特征的胶囊中,然后在这些胶囊上应用路由算法以获得可以包含更深层上下文信息的输出的顺序。通过将自注意力网络以胶囊方式重新组织,与原始自注意力网络相比,我们将模型扩展为更一般的形式。
其他文献
图像彩色化是把灰度黑白图像转化成彩色图像。近红外图像彩色化是图像彩色化的一个分支。相比于普通灰度图彩色化,近红外图像彩色化因原始近红外图像的原因面临着彩色结果不清晰的难题。近红外图像在交通辅助驾驶、军事领域、安防监控、智能警务和无人驾驶等都被广泛应用,但是由于其缺乏颜色信息不利于人眼观察,故而彩色化近红外图像很有实际应用意义。随着深度学习的发展,一些方法展现了它们优秀的图像彩色化能力。然而现有的红
发轫于上世纪的神经网络方法,在长期的发展过程中,经过了大量的调整、改进和优化,终于在近几年取得了引人注目的成果,并逐渐为不同领域的学者所青睐,大范围流行了起来。针对不同领域的数据各自的特点,形态结构各异的神经网络模型被大量提出,并在各自的领域中取得了显著的效果提升。同时,神经网络的拟合能力也随着神经网络的加深而不断增加,许多通用的深度神经网络架构被提出,并作为骨架广泛应用于各种不同的任务中。在复杂
在日常生活中,文本检测和识别有着非常广泛的应用,涉及了图像检索、图片管控、票据识别等诸多场景,因而在学术界引起了广泛关注,有很多专家学者对此进行了深入研究。在自然场景中,文本通常具有不同的种类、尺度和分布,且缺少结构化的版式。此外,场景背景的复杂性也是一个难点,如低分辨率、噪声干扰、异物遮挡、透视变换等都可能对检测和识别结果造成不利影响。以上问题的存在使得场景下的文本检测和识别成为一项富有挑战性的
Ⅲ型分泌效应蛋白(T3SE)是革兰氏阴性细菌在其生长和繁殖中必不可少的蛋白质之一。革兰氏阴性细菌的致病机理依赖于T3SE,通过将T3SE注入宿主细胞,来破坏宿主细胞的免疫能力。T3SE序列具有高度的多样性,并且缺乏明确的分泌标记,使得序列难以被识别和预测。同时,T3SE引发的致病机理研究也是生物信息学中的热门话题。为了满足通过计算方法识别T3SE的需求,一些计算工具已经开发了出来。尽管这些计算工具
Corporations are looking globally in order to fill strategic positions and as a result growing the company’s global workforce.This globalization trend and the complexity that is involved with conducti
学位
柔性可穿戴设备可以与皮肤接触并且可以持续、准确的检测人体体液中的生理标志物而不干扰用户的运动,在健康检测和医疗诊治等方面拥有巨大的应用前景。然而,可穿戴设备的发展要求传感器不仅具有优异的催化能力同时具有良好的柔韧性。目前世界糖尿病患者的人数逐年升高,糖尿病及其并发症严重威胁人们的身体健康,非酶葡萄糖传感器凭借其高灵敏度、响应速度快等优点引起大家的广泛关注。碳化丝布因具有天然的柔韧性、良好的化学稳定
学位
Machine Learning has become an important technology for almost all industries.Applied in businesses and combined with Big Data,Machine Learning already creates a measurable return on investment and is
学位
学位
根据壳体产品的结构特点和要求,在UG平台上设计出复杂侧抽芯结构的分级复合注射模,通过运动分解设计出“T型槽+斜面”的新型复合滑块机构,使3个镶件能同时完成3种不同方向的抽芯;同时采用滑块限位螺丝处预留1段空行程的方法,使滑块在1个液压缸的驱动下实现各镶件之间按顺序分级侧抽芯。实际生产检验表明该注射模具结构合理、工作稳定、自动化程度高。