XML文档检索技术研究

来源 :太原理工大学 | 被引量 : 15次 | 上传用户:nolva
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,HTML语言本身所具有的弱点,使得其已不能满足WEB越来越广泛的应用,XML可扩展标记语言是专门为Web应用设计的一个简单的SGML的子集,既克服了HTML的不足,又去除了SGML中那些对于当前Web用户来说不必要的特性,必将成为WEB应用的主流标记语言。 本文在对XML文档的特点、XML的基本理论、XML查询语言以及传统信息检索模型在XML文档检索中的应用等问题进行仔细分析的基础上,提出了XML文档检索的总体系统框架、具体算法及其实现。作者首先将XML文档进行分类,在此基础上认为一个好的检索算法应该能适用于不同类型的文档检索需求。根据这一思想,作者提出了将XPath语言与传统的向量空间模型相结合,实现基于简单XPath路径的向量检索算法来实现对XML文档的检索。充分利用XML文档分类层次体系结构的特点,对于每篇XML文档分析其文档结构,并采用聚类学习算法形成文档结构类属词典,从而实现XML文档查询的导航机制和消除文档结构的异构性。采用自底向上的查找方法实现路径匹配,准确定位用户的兴趣需要,同时最大限度地减少检索时间,提高检索速度。本系统还只是个原型系统,相信随着时间的推移,其功能将不断完善,必将成为一个真正实用的系统。
其他文献
企业应用集成(EAI)正日益成为IT技术的核心,它兼有企业已有应用软件、商业封装式应用软件,以及由通用中间件编写的新代码的功能,提供一种极有竞争力的崭新方案,可以增强客户与供应
该文主要介绍了在Windows环境下电子邮件智能分类的设计模型和实现方法.该分类系统能够对一些典型垃圾邮件进行识别判断,而且也同时能够对其它邮件进行分类.由于如今电子邮件
基于现场的故障诊断系统的体系结构相对封闭,因此,故障诊断与维修都会受到人力、技术和地域的限制,故障诊断的时效性也受到一定的影响。所以,建立远程故障诊断系统已经成为趋势所
解决密钥泄露的直接方法是提高密钥的安全性.秘密共享方案、门限签名方案、Proactive密码体制都是直接加强对密钥的保护来提高密钥的安全性,秘密共享方案使用分布式的存储实
学位
学位
随着电子信息技术迅猛发展,信息存储逐渐成为计算机科学技术研究的重要领域。存储虚拟化系统是指通过将具体的物理存储设备和服务器操作系统相分离,在广域网范围内将零散分布
本文结合了目前问答系统研究领域国际最新研究趋势和作者的实践探索结果,将答案抽取算法分为答案搜索、答案匹配与评分和答案验证三个子模块分别进行了较详细的论述。首先对答
随着信息化不断深化发展,网络已经成为现代生活必不可或缺的一部分。如何利用网络中海量数据挖掘用户信息,提升用户体验和工作效率,成为学界与工业界的关注热点。但遗憾的是,现有
随着DNA分析技术的发展与应用的不断深入,DNA数据的存储与访问日益成为关注的焦点。一般应用系统采用现有的数据库系统来进行管理,数据库系统区别于其它系统的重要方面之一是DB