论文部分内容阅读
语音识别技术可以实现人机交互,作为机器的听觉系统,它可以利用机器理解并识别语音信号,把语音信号转变为相应文本或者命令。作为一个新兴高技术产业,语音识别技术的应用越来越具有竞争性,具有广泛的应用领域和应用前景,对科学技术的发展也具有深远的意义。深度学习作为机器学习研究中的一个新的研究领域分支,可以模拟人脑的机制来解释数据。将深度学习用于语音识别成为语音识别领域的研究热点,并且有广阔的研究空间。论文主要研究的是基于深度学习的孤立语音词汇的语音识别。首先介绍传统神经网络和深度学习模型的对比,其次对语音识别技术相关的声学模型,语音特征参数进行介绍,最后讨论了将改进的深度学习模型在语音识别中的应用。本文主要创新点包括两方面工作。首先,在语音识别的语音特征提取阶段,使用主成分分析法对提取的特征参数进行降维处理,减少语音识别过程中占用和消耗的系统资源。其次,针对深度学习模型在对小样本进行训练时会出现过拟合现象提出随机退出的优化方法和随机下降连接的优化方法。前者是对节点的优化,后者是对权值的优化,两种方法都是针对深度学习模型的调优阶段进行改进,最大限度减少由于训练数据量较少使得深层网络模型训练出现过拟合现象,并且让权值的更新过程更具有独立性,而不是依赖于有固定关系的隐层节点间的作用,同时可以降低语音识别错误率,减少识别时间。随机退出方法和随机下降连接方法分别是向量模型的平均和矩阵模型的平均,随机下降连接方法的平均能力更强。采用上述的实验方法和模型,对孤立语音词汇进行训练和识别。实验结果表明,对语音特征参数进行降维,可以减少数据处理量,减少系统资源消耗;在深度信念网络的基础上引入随机退出优化方法和随机下降连接优化方法可以改善消耗时间,提升识别率,缓解过拟合现象。