基于注意力机制的单声道语音增强算法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:yxiande123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强作为语音任务的前置预处理技术,在语音识别、语音分离等中得到了广泛的应用。语音增强主要是从含噪语音中去除掉噪声语音,恢复纯净语音。在过去的研究中,主要分为传统算法和基于深度学习的方法。传统的算法包含了许多假设,在低信噪比环境下会出现语音失真。现在基于深度学习的算法被证明效果要优于传统的算法。本文主要工作是提出了基于时域的语音增强算法。过去利用深度学习来进行语音增强时,往往工作在频域,需要将含噪语音进行时频域的转换,在这个过程中增加了许多计算量,同时不可避免的会丢失语音信号的相位信息。目前有一些研究采用时域上的语音增强算法去解决上述问题。由于语音信号在时域上的某一帧与相邻帧具有关联性,常规卷积无法学习到较长距离的语音帧间的相关性。因此为了解决该问题,本文提出了一种时域的端到端模型,基于编码器解码器结构,并且在编解码器中间插入了双向长短时记忆网络和非局部模块,目的即为了学习长距离语音帧间的相关性。为了在评价指标尺度不变信噪比上取得更好的效果,训练时使用了基于尺度不变信噪比的损失函数,保持了评价指标和训练指标的一致性。实验表明该模型在本文选取的各项评估指标中均取得了很好的效果,在信噪比为0dB时相比较基线模型,该模型的尺度不变信噪比提高了 9.6%。上述研究在编码器解码器中插入了非局部模块,但是模型需要占用较大内存。在编解码器中间插入交叉注意力模块来代替插入非局部模块,该方法可以减小计算量和内存的使用。实验结果表明交叉注意力模块相比非局部模块显著减少了约83.3%的计算量和73%的内存占用。
其他文献
如今正是互联网高速发展的时代,各项互联网技术层出不穷。物联网技术建立物体与互联网的联系,AI技术促进生活的智能化,大数据技术挖掘数据更深层次的价值。这些技术也标志着未来是“互联网+”的时代[1-2]。因此,新时代下信息的传递显得尤为重要,需要建立在一个稳定可靠的通信系统上。而光纤通信系统无疑能够很好地适用于这些场景。得益于光通信频带宽、损耗低、抗电磁干扰等特点,未来的通信网络发展方向必定是大容量、
网络异常流量检测是抵御恶意攻击、保护网络可用性和隐私安全的重要手段,对于维护网络安全有着至关重要的作用;而基于流量分类的方法是网络异常流量检测任务中的重要方法之一。近年来,基于表征学习的流量分类方法由于无需人为提取特征、检测速度快且在特定环境下表现优异,因此受到了研究者的广泛关注。但是在部署基于表征学习的异常流量监测模型时,单一网络域内面临着数据不足、标注能力不够、难以检测未见过的异常流量、且原始
学位
随着当代互联网技术的不断革新,越来越多的单位使用互联网软件传输机密数据。互联网应用的不断深入和扩展,也为计算机网络带来越来越多的安全隐患。本系统旨在设计并实现匿名、安全的文件传输管理系统,为用户提供好友管理、群组管理、匿名聊天、文件传输等功能。在Tor(The Onion Router,洋葱路由器)网络中,用户借助匿名通信技术,多层加密通信数据,让流量监控无法嗅探到用户数据和用户身份信息,维护文件
相较于传统的在远端云中心进行数据处理的方式,移动边缘计算(Mobile Edge Computing,MEC)通过将计算和存储能力下沉到网络边缘,提供了高带宽低时延的网络环境,从而能够提高时延敏感业务的服务质量。作为MEC的关键使能技术之一,网络功能虚拟化(Network Function Virtualization,NFV)支持将网络功能与底层硬件资源解耦,在统一的物理基础架构之上配置虚拟网络
由于无线通信设备的增长和网络技术的发展,对频率的需求不断增长。为了在有限的频率资源环境中有效地共享频率,应该进行研究以开发频谱共享技术。传统的频谱共享研究依靠中央机构来验证每个频谱共享交易的真实性,缺少安全的频谱共享机制,这容易受到众多的安全威胁。其次,通过频谱感知,或频谱数据库进行的传统频谱共享机制使用效率并不是很高。最后,由于同频道干扰和其他干扰,自私且理性的频谱所有者不愿在没有适当经济补偿的
近年来,互联网技术快速发展,各类信息剧增,互联网上每天有海量信息在生成、传播和存储。作为人的标识之一的人名,在互联网检索中有非常重要的意义。但由于人口巨多,人名数量巨大,使得进行人物相关文章的搜索时,重名现象严重,搜索引擎不能达到预期的效果,返回的内容中包含大量噪声信息,需要用户去进一步的识别、筛选,这就使用户检索信息的难度大大增加。因此如何设计一个系统,能高效识别人物,消除人名歧义,节省用户搜索
随着工业互联网的发展,带来终端传感设备数量激增,传输与存储的数据呈现爆炸式增长,企业、机构通过数据挖掘能够进行一系列的分析、预测,但传感数据普遍存在数据质量高低不齐的现象,若直接使用,将造成信息的误判,经济、时间等损失。因此应找到一种合适的数据质量评估方法,对数据质量进行评估,让后续的分析、预测等操作有一个良好的数据质量保障。本文研究了数据质量评估的主流方法,重点分析了基于机器学习的数据质量评估法
票房作为衡量电影能否盈利的重要指标,受诸多因素共同作用影响且其影响机制较为复杂,电影票房的准确预测是比较有难度的。目前电影票房预测的研究存在依赖社会媒体舆论信息、影人价值量化方式单一、没有挖掘影人合作关系价值等不足。尤其如果要在电影上映前给出预测,基于社会媒体评论和舆论热度的票房预测方法难以应用。本文提出了一种基于 GBRT(Gradient Boosting Regression Tree)和关
飞机表面蒙皮伤痕是威胁飞行安全的一大主因,因此,航空公司在飞机转航停场期间对蒙皮伤痕进行检测是保障飞行安全的重要工作。目前较为先进的检测方法是基于计算机视觉的伤痕检测法,该方法将采集到的飞机蒙皮图像传输给伤痕检测服务,进行基于人工神经网络的图像处理以识别伤痕类型及位置信息,从而判断蒙皮受损程度,保障飞行安全。由于检修飞机数量多、检修时间短,该方法在图像传输、处理过程中需要进行大量的数据传输和计算。