论文部分内容阅读
因特网诞生以来,网络信息资源急剧增长,如何利用数据检索技术有效的发现和使用资源成为急待解决的问题。XML具备许多HTML没有的优点,其实现了内容、结构和表现三者的分离,因此适于数据表现、交换及存储。同时,它是一种半结构化文档,其结构信息使得文档不仅能够被计算机所理解,同样适合人类阅读。而且,XML较HTML更加适合应用于网络和检索。因此越来越多的数据开始使用XML进行描述、存储和交换,XML正逐渐成为Web舞台上的新星,取代HTML成为Web数据表现、存储、集成和交换的标准指日可待。 如何有效地利用、加工、分析和处理XML,目前已经存在一些XML的查询和存储管理技术方面的研究成果。本文在前人已有工作的基础上,针对XML文档的具体特点,从检索原理、数学模型、信息压缩、数据库实现等方面研究了已有的技术和实现手段,就XML文档检索模型的主要技术问题,给出了一个XML文档检索的总体框架和理论模型,提出了一种索引和存储方案。具体就是基于数据库存储,充分利用成熟的数据库系统以简化对并行处理、数据恢复、事务处理的系统实现;对文档树的内容和结构进行先序索引;对索引表中关键词的置入表进行压缩编码处理。并给出了基于树查询的部分匹配检索算法,使系统适用于不同类型的XML文档的检索需求。 最后,设计并实现了一个基于改进向量空间模型的原型检索系统。