论文部分内容阅读
随着网络信息资源数量的急速增长,通用搜索引擎已经很难满足人们对专业化信息检索服务的要求。主题搜索引擎只搜索与特定主题相关的Web资源,能更好地满足用户对获取信息快速、准确的性能要求。实现主题搜索引擎,核心是设计一个面向主题的网络爬虫,改进网络爬虫中对页面的过滤方法和网络爬行的策略,将有助于提高主题搜索引擎的性能。经过对现有的各种主题相关度判断方法的分析,以基于语义判断的方法为基础,加入链接标签和元数据等信息作为判断因素,提出了综合使用向量空间模型和链接标签分析及元数据分析的页面相关度判断的方法。实验表明,该方法可以提高主题相关度判定的效率和准确率。在对目前各种搜索策略的研究的基础上,决定采用效率较高的基于内容评定策略进行网络爬行。针对基于内容评定策略中存在的“近视”问题,设计了一种基于当前页面URL的简单链接结构分析方法,综合使用内容评定和链接结构分析方法作为网络爬行策略。该方法能在一定程度上缓解“近视”问题,提高爬虫的效率。在通用搜索引擎的基础上,通过对其网络爬虫部分进行改进,设计和实现了一个完整的主题搜索引擎。实验结果表明,上述主题相关度判断方法和爬行策略可以有效地控制爬虫对主题相关的信息进行爬行,达到了设计要求。