论文部分内容阅读
因特网的迅速发展,促使其访问方式的多元化发展。人们已经不再满足于仅仅通过计算机浏览器浏览因特网,越来越多的人希望可以使用电话,手机等通讯设备浏览网页。相对于表达能力有限的图像和文字,人们更倾向于使用自然语言交流。因此友好的语音交互越来越受到人们的青睐。VoiceXML建立在XML规范基础之上,是一种语音数据交换标准。给用户提供了通过语音工具访问网络资源的平台。VoiceXML作为一种语音数据的交换标准,它能够与数据库,以及其他建立在XML标准之上的其他数据文档进行无缝数据交换,从而把因特网和电话网紧密的结合起来。VoiceXML语音网关把用户文档提交给服务器,随着用户提交的信息量的增长,服务器在处理这些海量文档时,面临巨大压力,迫切的需要对信息进行自动分类,再对每个类别的文档分别处理。以往仅通过关键字本身对信息进行检索和分类,准确率和效率不是很理想,因为计算机不能理解关键字所蕴含的语义信息。为了能够更好地获得语义信息,在此引入本体的概念。可以借助本体来描述和分析关键字的语义。通过本体建模可以表达更深层次的语义信息。传统检索算法所采用的只是基于语法层面上字、词的简单匹配,而缺乏对知识的表示、处理和理解等能力。解决这些问题的关键在于把信息检索从基于关键字的语法匹配提升至基于知识(或上下文)层面的语义匹配。本体是一种知识表示工具,在实际应用中可能需要根据规则进行逻辑推理。本体的推理是指把隐含在显示定义和声明中的知识提取出来。本体是对共享概念模型的规范说明,是对知识的一种描述,如果要把本体应用在语义分析上就必须使用规则,在规则上进行推理。谓词逻辑是知识推理的重要表现手段。可以在本体表示知识库的基础上构建规则库,用来分析文本的语义信息。文中使用OWL语言来描述领域知识,使用规则系统来表示推理规则。目前编辑和开发本体的工具很多,本文采用了美国斯坦福大学的Protégé3.2.1作为构建本体的平台。在这个平台上我们模拟构建了一个学校后勤管理的部分本体。并在该本体的基础上构建规则集合,用来对文本信息进行推理。为了解决文本自动分类的问题,本文提出了基于本体的电话内容的分类。本体是一种能在语义和知识层次上描述知识模型的建模工具,被人们应用到文本分类中,提高了分类的精度和速度。