基于数字指纹的音频检索系统的设计与实现

被引量 : 4次 | 上传用户:slyde
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着多媒体技术的普及,音频数据在网络上有了爆炸性的增长,这使得开发高效的检索分类音频数据的方法越来越受到关注。基于内容的音频检索系统利用从信号中提取出的声学特征与数据库中存储的声学特征进行比对从而检索出音频信号的元数据(作者,专辑,流派等)。其潜在应用包括自动音频识别,音频轨迹跟踪,版权保护,电视节目检索,广告背景音乐检测等等。本篇论文主要实现了基于内容的音频检索即通过数字音频指纹来检索识别音频文件。数字音频指纹是从音频内容中提取出的一段可以代表音频重要声学特征的紧致数字签名,将数字音频指纹作为用于识别音频的索引,并和相应的元数据信息内容一起存储在数据库中,检索时将未知音频文件提取出的数字音频指纹与数据库中存储的进行比对从而识别出未知音频文件。本文着重对影响着音频检索系统鲁棒性的几个重要步骤:特征提取,指纹模型和匹配进行了研究:首先,本文研究比较了几个频谱特征,包括梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs),色度频谱(Chroma Spectrum),常数Q值转换频谱(Constant Q Spectrum),以及积谱(Product Spectrum)。前三个特征提取只是来源于幅度谱,其已经广泛应用于音频信号处理及关键点检测,而积谱则利用了幅度谱与群延迟的乘积,它在鲁棒语音识别中效率非常高。实验表明在音频检索系统中本文所用的基于积谱的特征提取方法比前三种特征提取方法更具有更高的检索精确度。其次,本文提出了一个累积相似模型,以便能更好地提取出音频数据之间的相似度。实验表明累积相似模型比欧氏距离模型具有更好的效率与精确度。第三,本文使用高斯混合模型来提高音频检索系统的鲁棒性。高斯混合模型通过使用期望最大值算法(EM)来训练音频数据库,高斯混合模型能更好地描述声学特征的特点。通过训练高斯混合模型,数据库中的音频和待检测音频片段的特征向量都转换成了象征性的符号标记,然后在数据库中进行检索。实验结果表明了高斯混合模型的优点,它即使在严重的噪声失真的情况下依然保持着较高的精确度。最后,通过实验将本文提出的方法与一种目前通用的音频检索方法AudioDNA进行了比较。本文的方法与AudioDNA的最大区别是声学特征提取方法的不同与以及相似性度量方法的不同。实验结果表明,本文提出的方法更能抵抗噪声攻击引起的失真。
其他文献
目的:Meta-分析法研究羟基磷灰石(HA)涂层种植体的临床应用现状,评估HA涂层种植体修复的总体平均成功率.方法:计算机检索1990-2002年国内所有口腔医学类杂志有关涂层种植体修
狼疮性肾炎(LN)是系统性红斑狼疮患者最常见的并发症,也是患者死亡的主要原因。LN的病理分型是临床诊治及预后判断的基础。LN的治疗应该分为两个阶段:诱导期治疗、缓解期治疗
近年来,公益诉讼一词越来越多的出现在公众的视野里,无论是中央司法改革的总体部署,还是法律法规的修改修订,或是法学、社会学界的理论研讨、改革实践,公益诉讼的字眼通过各
不论是从财产来源还是经营模式看,西门庆都不具备新兴商人的性质,而更多地带有封建商人的特征。他虽然亵渎封建政治,破坏封建秩序,但他破坏和亵渎的却正是封建政治、封建秩序
微信营销作为一种新兴营销模式,受到了社会各界的广泛关注。本文采用经济学SWOT理论分析微信营销,在分析其明显优势和机遇的同时,也发掘其潜在的弱势和威胁,并提出提高交易安
目的探讨血压、血脂异常及肥胖三种危险因素与围绝经期妇女冠心病的相关性。方法选择100例患有高血压/血脂异常/肥胖围绝经期妇女(观察组)与100例健康围绝经期妇女(对照组)的
胡锦涛和谐世界思想的提出有深刻的国际、国内背景。它是中国缓解世界矛盾、促进世界和谐的一种尝试,是国内构建和谐社会、追求和平发展的自然延伸和迫切需要,也是中国综合国
根据生产现场需要,在普通C型吊具基础上结合生产实践经验,设计了具有自动平衡功能C型吊具。介绍了自动平衡功能C型吊具结构组成及工作过程。取消了原产品配重箱,增加了调节套
<正>农业机械化是实现农业现代化的重要标志,对提升农业生产力水平,增加农民收入、推动社会主义新农村建设有着积极的促进作用。为此,我支行成立了调查组对辖区金融支持农业