论文部分内容阅读
XML具有自描述性、可扩展性,既有内容也有结构信息,XML文档常见于Internet上存在的网页、商业文本、数字图书馆等,XML文档数量正呈指数级增长。如何有效地解决异构的XML文档集的检索已变得非常重要。 依据内容,XML文档分为两类:以数据为中心(data-centric)和以文档为中心(document-centric)。以数据为中心的XML文档的检索一般采用数据库方式(DB-style)查询,如已成为W3C标准的XPath和XQuery查询语言;以文本信息为中心的XML文档多采用信息检索方式(IR-style)查询。 信息检索不同于数据库检索,它是一种非精确的、模糊的和部分的匹配过程。XML文档是异构的结构与文本内容结合的半结构化数据,针对XML文档的信息检索不是传统信息检索的简单延伸:①带结构信息的XML文档检索返回XML元素结点(片断),而传统的信息检索返回整个文档或网页;②传统的文档检索是关键词检索,它没有结构信息,XML检索不仅有内容约束,还要有结构约束,要求关键词查询和结构查询相结合;③XML检索要求统一的排序机制以适应模糊内容和结构(VCAS)的检索:④XML检索可以是元素粒度的检索,元素结点的权重不同。 本文在研究XML文本文档检索特性的基础上,分析了VCAS检索的影响因素;充分利用预设答案结点的逻辑意义完整性,结合模糊抽取的查询表达式,确定检索的最佳查找粒度;设计了VCAS检索的结果相关性排序模型,以及满足这种排序模型的索引结构,并在VC环境下实现;在此基础上,进一步根据用户对查询结构的自信程度设计了可配置查询参数的检索结果相关性排序模型。 具体而言: (1)XML文本文档的半结构化特性,为XML文档元素粒度的检索提供了可能。提出了根据预设的答案结点和用户查询请求的结构,重新设置返回结点的新思想,避免检索粒度过大(浪费用户浏览结果时间)或过小(逻辑意义不完整)的缺陷。 (2)排序模型扩展了经典的向量空间检索模型,结合XML文档特点,考虑了文档权重、结点权重及返回结点文本大小的影响。一篇文档被引用得越多,说明其越重要;XML文档中的结点不仅反映出文档的层次结构关系,还存在有一定的语义,因此不同的结点应该语义权重不同,同时结点的引用及包含关系也反映出结点的引用权重的不同;返回结点的文本越小,用户浏览检索结果的时间越短,越受用户欢迎。 (3)对于XML检索,结构的使用可增加查准率,但若用户对结构不熟悉,过