单通道音乐信号中的人声伴奏分离方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:ashwing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在快速发展的信息时代,数字媒体的数量不断激增,面对大量的音乐数据,人们对音乐信息的检索、识别、处理的需求也与日剧增,将歌曲分离成伴奏和歌声,可以应用于乐器/歌声鉴定、音频后处理、反复背景噪声去除等应用中,它在歌手与歌曲检索,音乐背景下的语音识别、旋律提取等领域有着重要的意义。与语音的降噪分离技术不同,由于不同源之间的相互干扰,人声伴奏的分离技术给学术研究带来了巨大的困难和挑战。因此,如何构建一个良好的音乐分离系统,在音乐处理中尤为重要。本文主要研究音乐信号中的人声伴奏分离问题,包含以下几个方面:(1)针对在单通道音乐分离过程中,伴奏难以分离且分离方法鲁棒性差的问题,提出一种基于二维傅里叶变换(2 Dimension Fourier Transform,2DFT)的音乐伴奏分离方法。该方法首先对单通道音乐进行短时傅里叶变换,再对变换后的幅度谱进行二维傅里叶变换处理,然后利用图像滤波的方式确定2DFT谱图中周期性峰值能量的位置,使用矩形窗构建掩蔽矩阵提取出伴奏音乐成分,最后通过短时傅里叶逆变换的方式,恢复出伴奏的时域信号。仿真实验表明,本文方法对比其他分离算法具有一定的优越性,可以将分离指标SIR提升0.5~4d B左右,鲁棒性SAR提升超过15d B。(2)针对现有的单一音乐分离算法难以分离伴奏和歌声的问题,提出一种融合声源分离及反复结构模型的音乐分离方法。该方法首先通过迭代的方式分离出音乐的谐波声源和冲击声源,再引入节奏谱分析不同声源的能量谱矩阵,对其建立反复周期结构模型,最后保留谐波源的反复周期成分,去除冲击源的反复周期成分,得到分离后的伴奏和歌声。针对MIR-1K数据库,对1000首音乐片段的分离实验表明,与现有分离方法对比,本文方法在分离伴奏和歌声时均表现出优异的性能。(3)针对音乐信号中伴奏和歌声相互关联难以分离且在分离时相位信息难以利用的问题,提出一种在复数域内基于区分性训练双向神经网络的音乐分离方法。首先,考虑到音乐信号的时间关联性,在传统LSTM网络的基础上提出一种深度堆叠的双向神经网络,用于保存音乐信号中的时序信息。其次,在时频掩蔽和频谱映射的基础上,提出一种在复数域进行区分性训练的信号近似算法作为神经网络目标函数,充分利用音乐信号中的相位信息进行分离。最终,相应的时域信号由傅里叶逆变换获得。实验证明,新的目标函数能够明显提高神经网络的分离性能,与现有的音乐分离方法相比,本文方法在分离音乐中的伴奏和歌声均表现出优异的性能。
其他文献
涉儿童案件,特别是儿童受性侵、虐待案件的激增,引发社会公众、媒体及司法界的广泛关注。由于儿童认知发展的局限,其感知、记忆和表达能力尚未完善,更容易受暗示和误导而作出不准确的记忆报告,因此在儿童的作证资格、证言的可信性等方面尚存在着争议。然而,儿童往往是涉儿童案件唯一的证人,儿童准确、可信的证言在侦查、起诉和审判中都起到十分关键的作用。因此,如何从儿童证人询问入手,通过询问程序的标准化、规范化,询问
脊柱结核的诊断,长期以来主要是根据临床表现和X线拍片等进行确定.临床上常遇到X线片显示有椎旁或腰大肌寒性脓肿,而进行结核病灶清除术中发现脓肿已被吸收的情况.因此,仅依
肩胛舌骨肌综合征临床少见,我院1990~2000年共收治本病12例,均经手术治疗,获得满意疗效,现报道如下.
目的总结在经尿道等离子切除非肌层浸润性膀胱癌中应用窄谱光成像(narrow band imaging,NBI)技术的体会。方法 F26Olympus等离子电切镜在普通光源(white light cystoscopy,WLC)下
肥料是玉米产量的物质基础,施肥总量不足、以及配比不当一直是尼日利亚玉米高产的主要制约因素,试验目的在于通过采取施足底肥适量追施苗肥和追施不同氮素水平穗肥的方法,探