论文部分内容阅读
传统的嵌入式语音识别系统存在结构复杂、硬件要求高、灵活性和鲁棒性差以及词库更新难等不足。本文从网络应用的角度研究了基于HMM的分布式汉语语音识别系统的相关技术,包括服务器上词库的分类、更新和训练方法,以及在嵌入式终端中端点检测和特征提取过程的优化实现等。通过建立语言模型将孤立字识别转换为词识别以及将语音训练和识别过程从嵌入式终端转移到网络服务器等方法,降低了终端的计算量,提高了系统整体的灵活性和响应能力。本文的主要工作和创新点如下:(1)利用分布式信息处理的思想,将语音训练和识别分布在服务器上、语音特征提取分布在终端。终端将提取出的语音特征格式化成数据包,通过网络传递给服务器,由服务器进行语音识别并返回结果。(2)提出在服务器端用标签对词库进行分类和更新的方法。将词汇集中的每个词赋以标识该词所在分类信息的标签后存储到数据库。当获得该词的足量语音样本时进行训练并创建声学模型和语言模型。本文还提出了个性化语音识别方法,通过显式或隐式搜集特定用户的语料,对通用语音模型进行个性化调整,提高系统对特定用户语音识别的准确率,同时不失通用语音识别系统的普适性优势。(3)在嵌入式终端将频域端点检测和特征提取同步进行,结合算法优化、查表和定点实现等措施降低计算时间,并将得到的语音特征通过网络传递给服务器并由服务器进行语音识别计算,最后接收服务器的识别结果。(4)将网络服务器和嵌入式终端通过网络互联,以一个网络新闻推荐系统(智能网络搜音机服务平台及终端)为例实现了一个分布式语音识别系统原型。实验表明分布式语音识别可行性强,能为嵌入式系统分担计算和存储压力,且词库可动态更新,并具备个性化语音识别能力,系统的灵活性好。