论文部分内容阅读
在快速发展的信息时代,数字媒体的数量不断激增,面对大量的音乐数据,人们对音乐信息的检索、识别、处理的需求也与日剧增,将歌曲分离成伴奏和歌声,可以应用于乐器/歌声鉴定、音频后处理、反复背景噪声去除等应用中,它在歌手与歌曲检索,音乐背景下的语音识别、旋律提取等领域有着重要的意义。与语音的降噪分离技术不同,由于不同源之间的相互干扰,人声伴奏的分离技术给学术研究带来了巨大的困难和挑战。因此,如何构建一个良好的音乐分离系统,在音乐处理中尤为重要。本文主要研究音乐信号中的人声伴奏分离问题,包含以下几个方面:(1)针对在单通道音乐分离过程中,伴奏难以分离且分离方法鲁棒性差的问题,提出一种基于二维傅里叶变换(2 Dimension Fourier Transform,2DFT)的音乐伴奏分离方法。该方法首先对单通道音乐进行短时傅里叶变换,再对变换后的幅度谱进行二维傅里叶变换处理,然后利用图像滤波的方式确定2DFT谱图中周期性峰值能量的位置,使用矩形窗构建掩蔽矩阵提取出伴奏音乐成分,最后通过短时傅里叶逆变换的方式,恢复出伴奏的时域信号。仿真实验表明,本文方法对比其他分离算法具有一定的优越性,可以将分离指标SIR提升0.5~4d B左右,鲁棒性SAR提升超过15d B。(2)针对现有的单一音乐分离算法难以分离伴奏和歌声的问题,提出一种融合声源分离及反复结构模型的音乐分离方法。该方法首先通过迭代的方式分离出音乐的谐波声源和冲击声源,再引入节奏谱分析不同声源的能量谱矩阵,对其建立反复周期结构模型,最后保留谐波源的反复周期成分,去除冲击源的反复周期成分,得到分离后的伴奏和歌声。针对MIR-1K数据库,对1000首音乐片段的分离实验表明,与现有分离方法对比,本文方法在分离伴奏和歌声时均表现出优异的性能。(3)针对音乐信号中伴奏和歌声相互关联难以分离且在分离时相位信息难以利用的问题,提出一种在复数域内基于区分性训练双向神经网络的音乐分离方法。首先,考虑到音乐信号的时间关联性,在传统LSTM网络的基础上提出一种深度堆叠的双向神经网络,用于保存音乐信号中的时序信息。其次,在时频掩蔽和频谱映射的基础上,提出一种在复数域进行区分性训练的信号近似算法作为神经网络目标函数,充分利用音乐信号中的相位信息进行分离。最终,相应的时域信号由傅里叶逆变换获得。实验证明,新的目标函数能够明显提高神经网络的分离性能,与现有的音乐分离方法相比,本文方法在分离音乐中的伴奏和歌声均表现出优异的性能。