Deep Web信息集成架构及相关问题研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:suwenyin52
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的不断发展,如今的Web信息以两个层次形式提供用户使用,其中能够被传统的搜索引擎检索的Web信息被称为Surface Web;由于传统的搜索引擎和爬行器不具备自动填充表单的能力,导致了不能有效的搜索隐藏于查询表单之后的数据库信息,这部分Web信息被称为Deep Web,即深度网。在电子商务领域中,许多电子商务站点都由Web数据库提供数据服务功能,是典型的Deep Web。例如,在图书领域amazon.com提供给用户一个全局查询表单,以供用户输入的查询实例在数据库中搜索相应的结果。2000年Bright Planet公司发布了第一份关于Deep Web的调查报告--Deep Web白皮书。白皮书指出整个Web上大约有43,000-96,000个在线Web数据库,蕴藏了更加丰富,领域相关度更高的信息。在随后2004年Illinois大学研究者的又一份调查发现Deep Web的数量在四年当中增加了近六倍。如此丰富的数据源引起了国内外研究者的高度兴趣,相关研究者着眼于Deep Web研究关键点提出一系列原型结构和方法。本文在总结前人工作的基础上结合所属实验长期取得的研究成果,对Deep Web集成的相关问题进行了深入研究,主要研究内容如下:1.提出一种Deep Web集成系统中介模型,中介模型主要由四个功能过程和六个功能模块组成,其中四个功能过程包括:数据源发现、数据源分类、模式集成和完备性、拓展性检查;六个功能模块包括:全局模式或全局查询接口、查询重写引擎、查询优化器、查询执行引擎和数据源索引器和结果显示引擎。按照Pre-和Post-工作分类可以将整个功能框架分为两个阶段,即预处理阶段和服务阶段。预处理阶段是指为生成整个框架服务方式全局查询接口所做的前提工作,服务阶段是指当整个框架稳定后,用户提交查询实例时的具体工作细节。2.提出一种充分利用查询接口表单的启发式信息和本体实例信息的属性抽取方法。通过利用实例信息处理无语义词,在查询过程中有效的使其具有语义描述功能。本文使用了本体工具WordNet以获取更丰富的表单属性集合,并建立表单属性间的语义关系,在语义层面上对属性进行描述。3.提出一种基于本体技术扩展的Deep Web模式描述方法。根据本体工具的结构特征,给出了一种有效的属性间语义距离计算方法,使用语义矩阵描述属性间的语义关系,并在基于上三角矩阵回溯算法生成的语义关联集合上建立中介模式与局部模式间的语义映射机制。在知名数据集上的实验,验证了基于本体技术扩展的模式描述方法在处理模式描述过程中语义问题的有效性和可拓展性。4.提出一种基于Deep Web查询接口融合的增量式本体构建方法,以查询接口描述的属性及属性关系为基础不断地融合新的查询接口,在融合过程中调节概念间的层次关系最终生成Deep Web具体领域描述的知识。
其他文献
肝脏是人体重要的消化器官,肝脏疾病直接影响人的健康和生存。随着医学、计算机技术及生物医学工程技术的发展,医学影像学为临床诊断提供了多种模式的医学图像,这些图像在医
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
中庸之道是儒家思想中的一种重要的、具有某种形式化特点的实践理性方法论,它对于人与人、人与自然、人和社会的和谐相处,和谐交往,以及人的自身修养方面都具有重要的指导意
信息处理技术以及相伴而生的多媒体技术的发展促使视频数据以几何级数增长,面对如此海量的视频数据,对其进行有效地管理、组织和检索已经成为亟待解决的问题。目前已有的视频
本文阐述了一个利用当前较流行动态网页编程技术开发的大学生心理健康教育系统。在现代教育和心理学等理论的指导下,结合实际需求,笔者对这个大学生心理健康教育系统进行了合
随着WWW的迅速发展,Internet上的服务器积累了大量的Web日志数据,基于Web日志的使用挖掘是目前的研究热点之一。Web使用挖掘一个多学科交叉的研究领域,涉及到数据库技术、人
网格生成是诸如有限单元法(Finite Element Method,FEM)等各类数值方法的前处理过程,是计算机辅助工程(Computer Aided Engineering,CAE)的共性支撑技术之一,所用网格的质量