论文部分内容阅读
随着Web上多元化信息的增长,传统的搜索引擎,即通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需要。近年来,面向主题的搜索引擎应运而生,以提供分类更细致精确、数据更全面深入、更新更及时的因特网搜索服务。 在主题搜索引擎中,网络蜘蛛以何种搜索策略访问Web,以提高效率,是近年来主题搜索引擎研究中的热点问题之一。而Web的动态性、异构性和复杂性要求网络蜘蛛能够高效率地实现Web信息提取,以保证信息的实时性和有效性。 该文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上,提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。 作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能够围绕设定主题进行聚焦检索的关键。在URL的主题相关性判别过程中,引入了链接文本及相关链接属性分析,提出了一种新颖的URL主题相关性剪枝算法—EPR算法。而对于网页的主题相关性判别,则使用目前较为常用的向量空间模型进行判别。 主题搜索引擎对数据实时性的要求要远远高于通用搜索引擎,因而,增量Web信息提取算法也是主题网络蜘蛛搜索策略的重点。该文提出了一种全新的基于索引页的增量Web信息提取算法,能够有效地发现Web上新增加的网页。 实验结果表明该文的工作是相当有效的,尤其是提出的EPR算法和基于索引页的增量Web信息提取算法,具有相当的创新性和实际应用价值。