论文部分内容阅读
本文以科研项目“电磁阀性能测试系统开发”为背景,以通过语音命令进行操作,简化机器控制过程为目的,对语音信号处理中的语音识别技术的若干问题进行了研究,并以语音识别原理为基础,MATLAB、VC++为工具,设计与实现了针对特定人、孤立词、小词汇量语音识别系统。此系统主要包括以下三个方面的工作:端点检测,特征提取,模式匹配。在端点检测中利用声卡采集原始语音信号,通过过零率和短时能量等声学参数来判断起始点和结束点,去掉噪声,提取语音数据。为了实时监测用户的语音命令,实时录音是很有必要的,改变了传统语音信号批处理方式,采用一种实时在线处理方式,更符合实用性的要求。在特征提取中采用符合人耳感知特性的MFCC参数作为特征参数进行标准模板存储。在模式匹配中,为了克服说话人自然语速的差异,采用动态时间规划方法将模板特征序列和语音特征序列进行匹配,比较两者之间的失真,得出识别判决的依据。
Microsoft的语音软件开发包(MicrosoftSpeechSDK)是用于开发语音软件的一个理想工具,它主要包括一套语音应用程序接口(SpeechApplicationProgrammingInterface,SAPI5.1)。SAPI的API(ApplicationProgrammingInterface,API),以COM组件的形式提供,程序员无需了解复杂的语音技术,就可以开发语音应用程序,使得语音技术更加容易使用,应用程序也更加健壮。对SpeechSDK5.1进行了应用研究,分析了SpeechSDK5.1里语音应用程序接口(SAPI)的结构和工作原理,归纳总结出用SpeechSDK开发应用程序的方法,开发出“语音命令识别接口程序”,并成功嵌入到电磁阀性能测试系统中,实现了语音控制,提高了系统自动化水平。