论文部分内容阅读
随着互联网技术的飞速发展,HTML语言本身所具有的弱点,使得其已不能满足WEB越来越广泛的应用,XML可扩展标记语言是专门为Web应用设计的一个简单的SGML的子集,既克服了HTML的不足,又去除了SGML中那些对于当前Web用户来说不必要的特性,必将成为WEB应用的主流标记语言。 本文在对XML文档的特点、XML的基本理论、XML查询语言以及传统信息检索模型在XML文档检索中的应用等问题进行仔细分析的基础上,提出了XML文档检索的总体系统框架、具体算法及其实现。作者首先将XML文档进行分类,在此基础上认为一个好的检索算法应该能适用于不同类型的文档检索需求。根据这一思想,作者提出了将XPath语言与传统的向量空间模型相结合,实现基于简单XPath路径的向量检索算法来实现对XML文档的检索。充分利用XML文档分类层次体系结构的特点,对于每篇XML文档分析其文档结构,并采用聚类学习算法形成文档结构类属词典,从而实现XML文档查询的导航机制和消除文档结构的异构性。采用自底向上的查找方法实现路径匹配,准确定位用户的兴趣需要,同时最大限度地减少检索时间,提高检索速度。本系统还只是个原型系统,相信随着时间的推移,其功能将不断完善,必将成为一个真正实用的系统。