基于倒排索引的XML文档全文检索技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:mxhdb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,XML规范已经得到普遍接受和应用,如何更高效地查询XML文档中的信息也已成为学术界和工业界的研究热点。目前的几种XML文档查询技术中,基于索引的全文检索技术具有很高的技术背景和广阔的应用前景。本文在研究和分析基于倒排索引的全文检索技术的基础上,设计了一组支持XML文档倒排索引和全文检索的存储模型及算法。上述结构和算法已经在本论文研究期间完成的原型系统中得到了应用,并与Xpath、XQuery两种查询语言的查询效率进行了对比。考虑到全文检索技术是一种I/O密集型的技术,尤其对大规模文档集合进行全文检索时需要频繁地访问外存设备,因此本文给出了利用交叉缓冲队列对倒排文件进行缓冲处理的思想。另外,为了能够支持文档集合的更新需要,本文还研究了基于可扩展位示图的倒排文件存储结构,并对相关算法进行了描述。
其他文献
XML迅速的成为Internet上用于数据表示和数据交换的标准。XML文档大量涌现,XML的有效管理受到广泛关注。为了结合数据库发展的需要,我们研究了在关系数据库中存储和查询XML文档
网盘作为一种新兴的云存储服务,能依靠本地客户端自动将用户设备上的文件储存到云端,并通过云服务在多个设备之间进行文件同步。然而,现有的网盘服务在网络性能、服务可靠性
Web的信息资源和信息服务的数量和复杂度都以惊人的速度增长着,一个站点能否吸引访问者,能否成功地引导访问者获得有用的、恰到好处的信息,成为这个站点是否能够成功的关键。这
随着对高性能计算资源的需求增长,使用云计算环境下的虚拟集群来运行紧耦合的并行应用变得越来越流行。然而在虚拟化环境下,会发生锁持有者被抢占问题。当虚拟机中占有锁的虚
对于许多实际应用,稀有类分类问题都非常重要。而稀有类样本的数量稀少使得很难使用传统的分类器对它们准确分类。由于稀有类问题的特殊性、复杂性及难解性,目前研究稀有类问题
本硕士论文所反映的研究工作是在四川省网络通信重点实验室的分布式多端口并发测试技术和测试系统的基础上展开的。传统的针对路由器的测试方法,如ISO 9646定义的穿越测试法,已
随着市场经济的快速发展,企业联系日益密切,社会分工也日趋细腻,物流业已成为国民经济中一个重要的产业,而物流业中仓储管理已是影响物流效率与质量的重要部分。物流业的发展促使
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其主要目标是从大型的数据库中挖掘
学位
网络教育突破了传统教育制度和模式的束缚,是教育体系发展过程中的一次重要变革。人们通过网络教育可以轻而易举地获取知识,从而参与公平竞争。网络课程具有交互性、共享性、开