论文部分内容阅读
随着互联网上的信息量迅猛增加,搜索引擎在人们使用网络的过程中扮演着越来越重要的角色,几乎所有上网的人都会用到搜索引擎来查找信息。同时各搜索引擎在不断地发展,收录的网页也越来越多。但这些搜索引擎并非可以搜到互联网所有的网页,网上仍有一大部分页面普通搜索引擎搜索不到,这些网页就是“Invisible Web”,即看不见的网页。据调查研究的结果可知,Invisible Web中蕴含着大量有价值的信息,可是它们却不能被当前主流搜索引擎搜索到。因此,研究能够对Invisible Web进行搜索的技术和方法就显得很有必要且很有价值。传统的面向Invisible Web信息的检索方式主要有两大类:目录检索和自动检索。在国外目录检索工具发展已经比较成熟,但这种检索方式查全率低,检索速度慢,不能满足用户的查询需要。而自动检索是真正地对Invisible Web进行检索,它可以将用户的检索请求同时推送到多个相关网络数据库中进行检索,而后把结果返回给用户。所以自动检索逐渐成为该领域研究的热点。本文首先深入分析了Invisible Web产生的原因及存在的主要类型,并论述了这种信息资源的特点;然后分析了传统的检索方式检索Invisible Web存在的问题,提出将分布式技术应用于Invisible Web检索中,可以增强自动检索工具的检索能力。深入分析了分布式信息检索的基本原理和体系结构,提出了采用分布式检索方式检索Invisible Web信息的关键步骤,即:数据集合划分、数据集合选择、结果合并。重点研究了这三个关键步骤中的算法:提出一种基于自动聚类的数据集合划分算法——CBCPA算法,实验表明该算法具有很好的效果;分析了四种典型的数据集合选择方法,并对各种算法进行了综合评价,最后提出了一种改进的数据集合选择方法,即将DTF与查询驱动的选择方法相结合的方法;对经典的CORI算法和新提出的结果合并算法——回归分析与选择下载相结合的Hybrid算法的基本原理进行了讨论,并通过实验证明Hybrid算法的性能要优于CORI算法。