论文部分内容阅读
本文以作者参与“中鸿讯统一消息服务系统(ZHX-UMS)”设计与开发工作为背景,在讨论有关UMS的体系结构、关键技术和实现方法等方面问题的基础上,重点讨论了文本-语音转换技术(TTS)和自动语音识别技术(ASR)的现状及其在UMS系统中的应用与开发。 本文反映的工作可以概括为两大部分:ZHX-UMS系统的总体规划设计和与TTS/ASR相关技术的研究与开发。在总体规划设计中,本论文首先从消息服务系统的发展历程出发,分析了从分离的消息服务系统向统一消息服务系统进化的必然性以及后者在技术上的优势,探讨了UMS的应用前景,从而论证了ZHX-UMS项目开发的合理性和使用价值。在分析、总结了国外UMS在体系结构特点的基础上,本项目组提出了ZHX-UMS的3层体系结构,本文也较为详细的讨论了这一结构,作为对相关系统研究与开发的基础。 作者在论文中反映的工作重点是对与TTS/ASR相关技术的研究,并以此为基础实现了相关子系统,与其他同学一道共同完成了ZHX-UMS样机系统的开发工作。论文从UMS所涉及的各种语音技术出发,引出了本文讨论的重点——TTS/ASR技术;分析了TTS/ASR技术的基本结构、基本要素、性能评价指标,以及该技术所使用到的语法规则;针对ZHX-UMS对TTS/ASR技术应用需求以及在设计中必须考虑的关键问题,结合开发实践提出了自己的看法与体会。 本文第4章重点讨论了ZHX-UMS中与TTS/ASR相关模块开发问题,较详细地介绍了模块功能的实现;第5章进一步讨论如何以面向对象的方法为基础对模块进行封装(封装成ActiveX控件),以解决模块间通信的问题和与其他子系统间的信息交换问题。 ZHU-UMS的开发环境为Windows NT,与TTS/ASR有关的开发,借用了微软公司的语音开发包Microsoft Speech SDK。 尽管目前的ZHX-UMS还只是一个试验样机系统,由于时间关系也尚未对系统进行严格的功能和性能测试,系统本身还有待改进和优化,但该项工作已经为后期的开发和产品化,取得了有益的经验,奠定了良好的基础。