XML文本文档检索技术研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:paullove0906
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML具有自描述性、可扩展性,既有内容也有结构信息,XML文档常见于Internet上存在的网页、商业文本、数字图书馆等,XML文档数量正呈指数级增长。如何有效地解决异构的XML文档集的检索已变得非常重要。 依据内容,XML文档分为两类:以数据为中心(data-centric)和以文档为中心(document-centric)。以数据为中心的XML文档的检索一般采用数据库方式(DB-style)查询,如已成为W3C标准的XPath和XQuery查询语言;以文本信息为中心的XML文档多采用信息检索方式(IR-style)查询。 信息检索不同于数据库检索,它是一种非精确的、模糊的和部分的匹配过程。XML文档是异构的结构与文本内容结合的半结构化数据,针对XML文档的信息检索不是传统信息检索的简单延伸:①带结构信息的XML文档检索返回XML元素结点(片断),而传统的信息检索返回整个文档或网页;②传统的文档检索是关键词检索,它没有结构信息,XML检索不仅有内容约束,还要有结构约束,要求关键词查询和结构查询相结合;③XML检索要求统一的排序机制以适应模糊内容和结构(VCAS)的检索:④XML检索可以是元素粒度的检索,元素结点的权重不同。 本文在研究XML文本文档检索特性的基础上,分析了VCAS检索的影响因素;充分利用预设答案结点的逻辑意义完整性,结合模糊抽取的查询表达式,确定检索的最佳查找粒度;设计了VCAS检索的结果相关性排序模型,以及满足这种排序模型的索引结构,并在VC环境下实现;在此基础上,进一步根据用户对查询结构的自信程度设计了可配置查询参数的检索结果相关性排序模型。 具体而言: (1)XML文本文档的半结构化特性,为XML文档元素粒度的检索提供了可能。提出了根据预设的答案结点和用户查询请求的结构,重新设置返回结点的新思想,避免检索粒度过大(浪费用户浏览结果时间)或过小(逻辑意义不完整)的缺陷。 (2)排序模型扩展了经典的向量空间检索模型,结合XML文档特点,考虑了文档权重、结点权重及返回结点文本大小的影响。一篇文档被引用得越多,说明其越重要;XML文档中的结点不仅反映出文档的层次结构关系,还存在有一定的语义,因此不同的结点应该语义权重不同,同时结点的引用及包含关系也反映出结点的引用权重的不同;返回结点的文本越小,用户浏览检索结果的时间越短,越受用户欢迎。 (3)对于XML检索,结构的使用可增加查准率,但若用户对结构不熟悉,过
其他文献
随着多媒体技术和网络技术的发展,人们对多媒体及网络环境的要求也越来越高。传统的集中式服务器,无论是集中式服务器本身,还是它的网络带宽,都构成系统的瓶颈而不能满足用户
本文针对面向服务计算环境下最终用户即时按需构造应用软件时面临的一些挑战性问题,包括如何保障系统行为和业务约束的一致性、如何提供辅助编程推荐、以及如何向最终用户提供
熔融沉积(FDM)快速成型制造中,支撑设计是一项关键性技术。支撑设计的优劣会直接影响零件的成型精度与成形质量。本文研究了FDM工艺中基于CLI模型支撑设计的相关方法和软件实
随着网络经济时代的到来,网络化制造模式迅速发展。网络化制造模式下企业应用系统强调应用与应用之间的交互和集成,传统的分布式集成技术如RMI,CORBA,DCOM不能很好的支持异构体系
电子投票是传统投票的电子化,是指利用先进的密码学技术和计算机网络技术,使选民可以在投票站或自己家中设置的计算机终端通过互联网进行投票,由计算机负责统计选票,不仅在组织工
学位
随着计算机网络与多媒体信息技术的快速发展,使得多媒体信息的交流达到了前所未有的高度和深度,其发布形式也愈加丰富,但是随之出现的问题也相当严重,如:媒体作品的版权侵犯,
随着计算机及网络技术的飞速发展,当越来越多的公司及个人成为Internet用户后,计算机网络安全作为一个无法回避的问题呈现在人们面前。用户传统上采用防火墙作为网络安全的第一
基于Web的应用系统已深入到现代社会的各行各业。随着企业信息化程度的提高,应用系统的开发质量和效率与企业的发展有着很重要的关系。因此对应用系统有关的开发问题进行深入
难以预测的节点移动特性,全局信息的缺乏,使容忍延迟网络(Delay Tolerant Network,DTN)的路由算法设计极具挑战性。由于整个网络的结构随时间不断变化,没有一条确定的路径,所