基于深度神经网络的时域语音分离算法

来源 :南昌大学 | 被引量 : 0次 | 上传用户:jj2653026
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着世界科技水平的飞速发展,人机交互的需求也逐渐增加,语音交流是最方便快捷的方式,但在实际的生活中,纯净的语音往往很难获得。此时单通道语音分离(Single Channel Speech Separation,SCSS)技术就显得格外重要。而传统浅层模型的方法不能很好的解决语音分离问题。当前,随着深度神经网络(Deep Neural Network,DNN)的大规模应用,研究人员利用深度神经网络的多层非线性处理结构来发掘语音数据中的信息,在语音信号处理领域中取得了比较好的效果。本论文研究将深度神经网络技术用于单通道说话人语音分离问题,主要解决时域中单通道说话人语音分离问题。本文主要研究内容如下:1.针对单通道说话人语音分离问题,给出了一种基于Gammatone滤波器组的DNN时域单通道说话人语音分离的算法。该算法在Conv-Tasnet整体架构的基础上,使用一种多相Gammatone滤波器组替换一维卷积的编码器,直接对输入的混合语音信号做时域处理,然后将得到的时域特征输入到时间卷积深度神经网络(TCN)中,训练分离网络得到语音分离所需要的掩模。最后,用掩模和经过滤波器组处理后的输出做矩阵对应元素相乘,再用解码器处理,得到分离后的纯净语音信号。而TCN分离网络则应用频域语音分离常用的损失函数均方误差(Mean Square Error,MSE)来训练,这么做可以将均方误差(Mean Square Error,MSE)损失用于时域语音分离。2.提出了一种基于非线性门控单元TCN(Gated TCN)网络的DNN时域单通道语音分离算法。本算法采用时域语音分离的基本框架,为更好的处理语音信号的特征,因为说话人语音具有由不同人的发音特征(例如速度)引起的时间尺度变化的特性,在不同的时间接收语音信号可能有助于语音分离的效果,而在以前的网络结构中接收语音信号的尺度是固定的。本算法在TCN分离网络加入了非线性门控单元,对TCN网络做了相应的优化,使网络具有多尺度不变性。这种优化后的TCN网络叫做Gated TCN网络。用该网络替代原始的TCN分离网络产生分离掩模,而用第三章所提出的多相Gammatone滤波器组直接对原始混合语音信号做处理,并用不同的损失函数即均方误差(MSE)和尺度不变信噪比(SI-SNR)来训练Gated TCN分离网络。最后,用解码器恢复原始纯净的语音信号。
其他文献
实时定位与建图作为移动机器人的关键技术,在智能制造等领域具备广泛的应用价值。但是现有基于连续帧的方法随着移动机器人的长时间的作业,其误差的累积也逐步加大,导致移动机器人在长时间工作下出现位姿漂移、定位误差大的现象。鉴于此,本文从现有实时定位与建图其误差产生的原因入手,针对问题产生的原因提出在倾斜航空摄影模型中进行移动机器人全局定位的算法研究,分析倾斜航空摄影模型作为定位地图的问题所在并进行解决,最
电力系统整体结构能够稳步安全地运行是国家快速经济发展的重要前提,随着我国用电地区科学有序地扩大,用电需求和电网改造对电网规划调度提出更高的要求,短期电力负荷预测是负荷预测非常重要的一部分,它对电力系统中各项发电、输电、配电设备维护运营提供科学合理的安排计划依据。而我国电网用电负荷面临更多不确定因素的影响,短期电力负荷预测也是现在急需研究的课题之一。本文基于短期电力负荷预测为研究根本,在实际案例中进
城市道路植物景观兼具自然属性及文化属性,以其色彩、空间、形态、健康等特性展现了自身独特的感知语言,能够体现城市的特色和活力,对其进行客观、全面、准确的评价能够为城市道路植物景观优化、城市形象规划建设提供参考依据,对提升城市道路绿化建设水平和塑造城市特色都具有重要意义。而以街景为代表的地理信息技术以及人工智能技术的发展也为城市道路植物景观的评价和分析提供了新的思路和手段。本文以城市道路植物景观为研究
随着电力物联网的高速发展,电力系统正朝着更加智能、灵活的交互式系统过渡。电力系统负荷预测在未来的电网规划、电力需求侧管理以及电力企业运营中扮演着举足轻重的角色。精确的短期负荷预测(short term load forecasting,STLF)既能有效指导发电机组的组合调度,制定检修计划,又能减少发电成本,增加经济效益,维持电力系统的安全与稳定运行,还能合理安排电力市场运营。与此同时,环境污染与
随着机器人技术的不断发展,目前对于机器人的研究已经不再局限于传统的工业场景中,如今都希望人能够参与到机器人的工作场景中协同进行复杂的作业。这使得机器人必须具备一定的柔顺性以及操作的灵巧性,从而尽可能的保证机器人在人机交互过程中的安全性和稳定性。有鉴于此,本文针对七自由度协作机械臂进行了避障技术以及柔顺控制的研究,主要研究内容如下:首先利用改进型D-H参数法对机械臂建立关节连杆模型并进行运动学分析,
机器人系统一般由机器人执行系统、控制系统及机器人示教系统组成,示教系统是机器人系统进行人机交互的接口。通过示教系统可以查看并修改机器人的位姿信息和参数设置,还能手动控制机器人并进行示教再现操作。本文研究的机器人示教系统基于C/S架构设计,包含机器人示教器和与控制主机交换信息的通信模块。本文研究设计了一种基于Android系统的6自由度机器人示教系统。示教器硬件基于Cortex-A9处理器,搭载An
随着我国的快速发展,输电线路遍布各地,由于输电线路暴露在室外并且受到环境因素的影响,容易发生故障。但是故障原因通常不易辨识,因为输电线路所在地形复杂,人员巡线不易,花费时间较长,给用户造成许多不便。所以输电线路故障原因辨识的研究在当下具有十分重要的意义。本文研究了六种输电线路故障,分别为:雷击、吊车碰线、鸟闪、污闪、树闪及山火。通过深入的研究,发现故障录波数据以及环境因素与故障原因有着重要的关联,
随着我国从化石能源供应体系向清洁能源供应体系的持续推进,环境友好、节能高效的小规模分布式电源(Distributed Generation DG)获得了国家的青睐与大力扶持。DG的快速发展,为配电网规划提供了一种新的思路。然而,DG的接入也具有两面性。配电网中引入DG在减少输电功率消耗、增强配电网可靠性、提升效益等方面成效明显;大量DG的并网也会引起配电网的电压稳定性出现明显波动。因此,本文依据D
根据电网相关部门关于输电线路故障的统计数据,鸟种活动是引发故障的主要因素。目前,各类防鸟装置在输电线路上得到了广泛应用,但未能遏制住涉鸟故障,其主要原因是涉鸟故障类型多样性和盲目地安装防鸟装置,不具备针对性的措施。针对此类问题有必要开展输电线路相关鸟种智能识别。本文分别采用传统人工提取特征和深度学习两种方式对涉鸟故障相关鸟种进行分类识别。主要研究内容如下:(1)根据电网统计结果,构建涉鸟故障危害鸟
随着现代工业科技的发展与创新,大型复杂设备的使用也日益增多。与此同时,为了满足其高可靠性和高效性等方面的要求,复杂系统常常会采用冗余技术,这在提高系统性能的同时,也给系统故障诊断带来了新的挑战。针对大型复杂系统的故障特性,考虑在构建故障模型方法、处理认知不确定性问题、故障诊断决策算法、诊断传感器信息融合等问题下,建立不确定性下基于多源异构信息的复杂系统故障诊断策略,以便能快速准确定位故障从而降低诊