论文部分内容阅读
声音无处不在,人听到声音后,不断地有意识地或潜意识地处理和理解这些音频,从而向我们提供有关周围环境的信息。智能环境声音分类是在众多实际应用中不断发展的研究领域。尽管在音频领域(例如语音和音乐)进行了大量研究,但对环境中的声音进行分类的工作相对较少。而利用深度学习对声音图像化处理后的分类还未出现,这就引出了利用卷积神经网络对随着时间而发生的离散声音信号进行分类的研究。本研究是将深度学习技术应用于环境中声音的分类,使用深度学习技术对生活中的声音进行分类。当给出持续几秒钟的计算机可读格式(例如.wav文件)的音频样本时,希望能够确定它是否是数据集中声音之一以及相应的似然评分。相反,如果未检测到目标声音,我们将获得一个未知分数。主要研究内容如下:(1)声音分类的意义以及在现实中应用声音作为一种携带信息的载体,是人类社会中无法缺少的元素,它包含在人类生活的方方面面。虽然人耳能够有效的识别部分声音,但在更复杂的情况下,其能力是有限的,于是就需要智能的声音分类系统来协助人类识别声音,以达到某些目的。当前,对声音识别分类的应用需求是非常多的,例如协助聋哑人的日常活动、能够内外识别声音的汽车、机器预测性维护,这些应用将有助于改善人们的生活提高人们的工作效率。(2)研究深度学习技术中的卷积神经网络(CNN)对声音图像化处理后的图像进行高精度和大规模分类本课题使用深度学习中CNN技术对生活环境中的声音进行分类,根据需求对采集到的声音数据集进行图像化,然后对声音图像每一帧声音数据进行预处理,以及用梅尔频谱倒谱系数(MFCC)来提取训练模型所需的声音特征,将这些有特征标签的数据集进行分割处理,并将分类标签一起存储在Panda中的Dataframe中,然后再将数据集放入到所建立的声音分类模型中进行训练。(3)优化了声音分类精确度的算法声音分类模型的建立中,涉及到深度学习算法的应用,而一般的基准算法不能达到相应的精度要求,需要在相应模型中进行算法的改进来达到提高识别精度的要求,本文在五种基准模型算法(决策树、KNN、随机森林、支持向量机以及多数投票算法)的基础上,通过改进MLP(多层感知器)模型和CNN(卷积神经网络)模型,将其中的层级结构、特征参数以及每层的模型的节点数等进行优化,创建一个有较高分类精度的声音识别系统。(4)系统测试及算法比较分析研究将8733个时长为几秒钟的.wav文件输入到优化的声音识别分类系统中,系统能够将输入的声音与模型中学习的声音精确匹配,对每一种声音都会给出一个评分,评分最高声音类别即是目标声音的类别。同时将样本声音用上述五种算法以及改进的MLP和CNN模型继续训练,五种基准算法中识别精度最高是SVM为68%,识别精度在改进MLP和CNN模型上分别达到了88%和92%,并在汽车发动机的故障分析上得到了有效的应用。