论文部分内容阅读
麦克风阵列声源定位技术作为语音信号处理领域的一项关键技术在实际中有广泛应用。针对实际应用中如圆桌视频会议,声源所有可能出现的位置对应于若干离散区域的情况,可以从机器学习的角度解决声源定位问题。基于机器学习的声源定位方法考虑了声源先验位置信息,其中的关键步骤是声源位置的特征提取。目前已有的特征提取方法,如采用麦克风之间的到达时间差作为特征,在混响噪声环境下的小尺寸麦克风阵列声源定位中无法达到精度要求。本文通过一阶谐波声场分析并结合机器学习理论,研究了适用于室内小尺寸麦克风阵列声源定位的特征提取方法。此外,识别方法也对定位算法性能有一定影响。考虑到深度学习网络的优势,利用降噪自编码器深度学习技术,本文还研究了基于声强特征的小尺寸阵列声源位置识别方法。论文主要工作和贡献如下:1.研究了典型的基于到达时间差的特征提取方法,并通过仿真实验分析了混响时间、信噪比、阵列尺寸等因素对该特征提取方法性能的影响。分析结果表明,该方法在阵列尺寸较大、混响噪声较小的情况下,能够实现声源定位;在小尺寸条件下,定位精度有所下降,定位性能不稳定。2.提出了一种基于声强估计的鲁棒声源位置特征提取方法。该方法以基本声强估计法为基础,包括三个步骤。首先对每个时频点声强做相位变换加权处理以提高方法的抗混响性能;然后对各声强分量进行归一化处理以解决语音多样性带来的声强幅度差异导致的特征向量不匹配问题;最后充分利用由子阵列估计声强得到的冗余特征信息,提高算法的容错率,从而提高定位精度。仿真结果和实测实验结果均表明,本文提出的特征提取方法在混响噪声条件下定位精度更高,鲁棒性能较好,适用于小尺寸麦克风阵列的声源定位。3.提出了一种适用于小尺寸阵列的深度学习声源位置识别方法。该方法以声强信息作为特征,首先采用所有可能的声源位置特征数据对降噪自编码器网络模型进行无监督预训练,然后通过反向传播算法对网络参数进行有监督调优,最后将所需识别的声源位置特征向量输入训练好的网络进行声源定位。相比于已有的识别方法,降噪自编码器的抗干扰能力更强。仿真和实测实验结果均表明,本文提出的识别方法在混响噪声较大情况下识别率更高,在小尺寸麦克风阵列的声源定位方法中有一定优势。