基于RDBMS的XML文档检索技术研究与实现

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:liyongrubylian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因特网诞生以来,网络信息资源急剧增长,如何利用数据检索技术有效的发现和使用资源成为急待解决的问题。XML具备许多HTML没有的优点,其实现了内容、结构和表现三者的分离,因此适于数据表现、交换及存储。同时,它是一种半结构化文档,其结构信息使得文档不仅能够被计算机所理解,同样适合人类阅读。而且,XML较HTML更加适合应用于网络和检索。因此越来越多的数据开始使用XML进行描述、存储和交换,XML正逐渐成为Web舞台上的新星,取代HTML成为Web数据表现、存储、集成和交换的标准指日可待。 如何有效地利用、加工、分析和处理XML,目前已经存在一些XML的查询和存储管理技术方面的研究成果。本文在前人已有工作的基础上,针对XML文档的具体特点,从检索原理、数学模型、信息压缩、数据库实现等方面研究了已有的技术和实现手段,就XML文档检索模型的主要技术问题,给出了一个XML文档检索的总体框架和理论模型,提出了一种索引和存储方案。具体就是基于数据库存储,充分利用成熟的数据库系统以简化对并行处理、数据恢复、事务处理的系统实现;对文档树的内容和结构进行先序索引;对索引表中关键词的置入表进行压缩编码处理。并给出了基于树查询的部分匹配检索算法,使系统适用于不同类型的XML文档的检索需求。 最后,设计并实现了一个基于改进向量空间模型的原型检索系统。
其他文献
近年来,语音识别技术取得了巨大的进展。人们迫切的希望把它推向广泛的实用领域,而不满足于只是理论研究。本文以教研室的《基于鱼类生物模型的计算机动画》项目为背景,分析
频繁项集的挖掘是多种数据挖掘任务中至关重要的一步,然而由于潜在的频繁项集的数据与项的个数呈指数倍关系,导致了频繁项集的数量都往往大得惊人,使用户难以处理和理解,不仅仅影
论文以LogGP并行计算模型的长消息通信机制为核心展开研究。并行计算模型为并行算法和并行计算机系统结构的分析与设计提供了具有指导意义的理论界面和模型框架,它是并行计算
随着“数字地球”概念的提出,地理信息系统和时空数据库已经成为研究热点。而今移动通信技术的高速发展,时空数据库越来越多地应用在地理信息系统、交通管理、定位、城市规划、
SNMP(Simple Network Management Protocol,简单网络管理协议)是TCP/IP网络上应用最广泛的网络管理协议,网络上的服务器、工作站、路由器等各种网络设备基本都支持这一协议,因此
随着Intemet技术的迅速崛起和在全球范围内应用的飞速发展,信息共享已经成为—种必然的要求,地理信息也不例外。 为了促进地理空间信息的共享和互操作,开放地理信息联盟(OGC:O
随着互联网的蓬勃发展,信息资源数量呈指数级的增长,信息检索技术也在不断地进步。通过信息检索系统,用户可以迅速地接触到丰富精彩的信息,对于生活、工作和学习都带来了许多便利
随着市场竞争的加剧及经济全球化的发展,虚拟企业、协同设计、网络化制造、企业动态联盟等虚拟系统将是未来企业的主要组织形式。信息集成是这些虚拟系统有效运作的前提和基
目前,移动可视搜索研究主要是基于客户端-服务器模式,将图像特征上传到远程服务器进行查询,从而完成目标识别。但这种模式对网络实时传输依赖性较强,当网络拥塞时,会出现查询速度
随着互联网的迅速发展,电子商务有了飞速的发展,企业信息系统的也越来越复杂化,因而对企业管理和经营模式也提出了全新的要求。现今的电子商务都要求建立在信息的获取和发布