查询扩展树:关系数据库中的文本检索

来源 :第二十三届中国数据库学术会议(NDBC2006) | 被引量 : 0次 | 上传用户:windtree
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在企业信息系统中隐藏着大量结构化、半结构化及非结构化存储的文本信息还没得到有效利用.结构化存储的文本信息隐藏于关系数据库内部,而传统关系数据库管理平台文本信息检索功能有限. 自然语言中存在的一词多义和多词同义现象给文本检索增加了难度,由此提出了查询扩展技术提高检索结果文档数,及文档的相关度. 本文设计了一个服务于关系数据库平台的信息检索系统,具备通用性、灵活性和可扩展性,解决信息系统内部大量结构化文本的信息查询问题,并提供信息查询智能扩展.为了适应关系数据库中的信息检索的特点及需求,我们设计出一种综合了传统信息检索技术,信息抽取技术以及查询扩展技术的解决方案:设计了智能索引结构,对用户输入的查询设计了语义分析方法,借助词典工具对单词语义做同义词扩展,最后对检索出来的元组信息利用其与其他元组的关联关系形成完整的"文档信息"。
其他文献
本文系统研究了由Ti,Ai,Mn,Co等元系取代的Laves相zr-V-Ni系列合金的显微组织、晶体结构和电化学性能。常规的多晶铸态合金是由cl5-Laves相、C14-Laves相及非Laves 相(Zr NI10、Zrg NiZr(Ni,Mn)Sno.35)组成,电极材料的最高放电容量为342mAh/g(以60mA/g的充放电流)510次循环后容量衰减14.3℅。快淬的非晶态合金电机的电化学性
在双时态数据模型中,随时间变化的事实是用两个时间维--有效时间维和事务时间维--来描述.在关系数据库中,通常用4个时间字段表示数据的时态性,这种方法使得数据和时间分离.为了描述时变数据的物理意义,定义了时态数据类型,并且定义了时态数据运算和时态关系运算,同时建立了时态索引机制.以时态数据类型为系统的基本数据类型,扩展关系数据库系统为时态关系数据库系统.
GML是由OGC推出的一种基于XML数据格式的地理标记语言,是空间数据编码、传输、存储和发布的一种国际标准,适用于Internet环境中的地理数据共享、交换和集成.随着GML的广泛应用,如何有效地管理GML数据是亟待解决的问题.提出了一种基于模型映射的GML文档存储和查询方法,该方法主要针对无模式的GML文档,也可用于有模式GML文档的存储.通过对文档树结点的分析和处理,建立文档到对象关系数据库模
信息安全已经成为当前研究的热点课题,作为信息系统核心的数据库的安全尤其成为信息安全的重中之重.目前,国内大部分企事业单位包括国家的一些关键部门大多数都使用国外进口的数据库产品,如ORCALE、DB2、SYSBASE等.但是国外限制了B1以上级别的安全数据库对中国的出口,在这种情况上,加强国产数据库的开发并加强数据库的安全级别就显得非常重要.国产LogicSQL安全数据库的研发就在这个背景下得到各级
与MPEG4标准不同,我们使用的MPEG4-SP(simple profile)是从H.263、MPEG1、MPEG2继承而来的编码标准,并没有场景对象信息.对于MPEG4-SP矩形编码来说它主要还是利用传统的预测编码、运动估值、运动补偿、DCT,IDCT,变换、量化、反量化的混和编码方式.在优化的方案中,本文只取了比较简单的零系数、三系数与全DCT相结合的方法来进行优化,在实际中还有许多方法可以