论文部分内容阅读
近年来,随着多媒体技术的普及,音频数据在网络上有了爆炸性的增长,这使得开发高效的检索分类音频数据的方法越来越受到关注。基于内容的音频检索系统利用从信号中提取出的声学特征与数据库中存储的声学特征进行比对从而检索出音频信号的元数据(作者,专辑,流派等)。其潜在应用包括自动音频识别,音频轨迹跟踪,版权保护,电视节目检索,广告背景音乐检测等等。本篇论文主要实现了基于内容的音频检索即通过数字音频指纹来检索识别音频文件。数字音频指纹是从音频内容中提取出的一段可以代表音频重要声学特征的紧致数字签名,将数字音频指纹作为用于识别音频的索引,并和相应的元数据信息内容一起存储在数据库中,检索时将未知音频文件提取出的数字音频指纹与数据库中存储的进行比对从而识别出未知音频文件。本文着重对影响着音频检索系统鲁棒性的几个重要步骤:特征提取,指纹模型和匹配进行了研究:首先,本文研究比较了几个频谱特征,包括梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs),色度频谱(Chroma Spectrum),常数Q值转换频谱(Constant Q Spectrum),以及积谱(Product Spectrum)。前三个特征提取只是来源于幅度谱,其已经广泛应用于音频信号处理及关键点检测,而积谱则利用了幅度谱与群延迟的乘积,它在鲁棒语音识别中效率非常高。实验表明在音频检索系统中本文所用的基于积谱的特征提取方法比前三种特征提取方法更具有更高的检索精确度。其次,本文提出了一个累积相似模型,以便能更好地提取出音频数据之间的相似度。实验表明累积相似模型比欧氏距离模型具有更好的效率与精确度。第三,本文使用高斯混合模型来提高音频检索系统的鲁棒性。高斯混合模型通过使用期望最大值算法(EM)来训练音频数据库,高斯混合模型能更好地描述声学特征的特点。通过训练高斯混合模型,数据库中的音频和待检测音频片段的特征向量都转换成了象征性的符号标记,然后在数据库中进行检索。实验结果表明了高斯混合模型的优点,它即使在严重的噪声失真的情况下依然保持着较高的精确度。最后,通过实验将本文提出的方法与一种目前通用的音频检索方法AudioDNA进行了比较。本文的方法与AudioDNA的最大区别是声学特征提取方法的不同与以及相似性度量方法的不同。实验结果表明,本文提出的方法更能抵抗噪声攻击引起的失真。