主题爬虫关键技术的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:dancingkingb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
众所周知,通用搜索引擎的诞生使得用户可以非常方便地从海量的信息资源里获取需要的信息。但是,通用搜索引擎提供给用户的信息的数量仍然是巨大的,其中包含了大量的用户不需要也不关心的信息,因此用户还要再做人工过滤。随着用户对搜索引擎的日渐熟悉,用户已经开始不满足于这样的精确率低的系统。鉴于此,可以用主题爬虫取代其中的通用爬虫构建主题搜索引擎,为用户提供信息检索服务,满足用户伴随信息多元化增长而不断扩展的信息需求。   本文对主题爬虫关键技术进行研究,提出了一种主题爬行方法,综合考虑网页的文字内容和链接结构来指导主题爬虫的爬行。首先给出了一种基于语义分析的主题预测算法C-SUBSPACE,算法共两部分,第一部分借鉴一个用于检索的算法,训练主题爬虫的主题判别器,第二部分使用这个判别器来判别一篇文档是否主题相关,即是否为体育网页。对该算法做了两个实验,先做了一个离线实验来评估该算法的查准率与查全率,再做了一个在线实验测试该算法的搜集效率,并与已有的经典分类器算法SVM、BAYES进行比较,两个实验结果表明,这一方法好于后两者,具备一定的有效性。然后本文从链接考虑,根据链接的类型和链接的锚文字提出了一种链接评估方法,计算链接的相关度。   本文根据提出的方法,设计并实现了一个基于链接及语义分析的主题爬虫系统,系统用C-SUBSPACE算法判别网页文档的主题相关性,同时,利用提出的链接评估方法来指导主题爬虫的搜索策略,并与Best First算法以及PageRank算法的爬行方式进行比较,实验表明,本文设计的系统在下载主题相关网页的效率上要好于后两个算法。
其他文献
互联网在90年代开始兴起,影响着人们获取信息的方式,人们从纸质上获取资源的方式逐渐转移到Internet上。这种方式能更方便的获取信息,更便捷分享和传播知识,更方便的生活工作
网络技术的飞速发展,多媒体数据逐渐成为人们获取信息的重要来源,人们可以轻松的获得各种各样的数字信息。与此同时大量诸如非法复制、伪造、篡改等侵犯多媒体信息安全的问题
随着互联网络的发展,网络上的各类资源爆炸式增长,P2P应用软件能方便人们共享和下载网络资源,得到了广泛应用。P2P软件彻底打破传统的客户端/服务器模式,提出成员对等,人人为
笔迹鉴别是通过分析和比较笔迹的书写风格和特征判断书写人身份的一门科学和技术。近年来,伴随生物技术的快速发展,作为生物特征识别技术的一种,笔迹鉴别在金融、保险、公安
无线传感器网络作为全球未来的三大高科技产业之一,也是现今研究关注的焦点之一。无线传感器网络技术对环境特别是交通方面进行的监测,一直是无线传感器网络一项热点研究课题
经济的迅猛发展,给企业的信息化建设和管理提出了更高的要求。面对日益激烈的市场竞争,企业需要对市场环境的变化做出快速反映,并且更快、更及时地了解和掌握业务运行状况。  
学位
随着互联网技术和电子商务的快速发展,我们已经进入了“全民网购”的时代。消费者对商品的在线评论为其他消费者、企业产品反馈提供了重要的资源。因此,如何高效、自动化的剖
由于化石能源日益枯竭,而太阳能因其分布广泛,储量丰富,安全洁净,可再生等特点,成为国际公认的理想新能源。户用并网光伏发电越来越受到人们的关注,是未来光伏产业的发展方向。为此,本文对户用型并网光伏控制系统进行研究。论文首先给出并网光伏控制系统的总体结构,提出具有最大功率跟踪的双闭环瞬时电流三角波比较方式的系统控制方案;分析太阳能电池的工作原理和最大功率点跟踪原理,采用开路电压法结合变步长的扰动观察法
近年来由于传统网站在交互性和响应能力上的不足,使得其用户量逐渐流失。单一页面的web应用使用了异步调用的机制,可以改善用户访问网站时在流畅性和交互性上的体验,优化了浏
蚁群算法是一种新兴的仿生群体智能算法,它通过模拟自然界中蚂蚁的群体行为,利用信息素的累积、挥发和更新使全局收敛于最优路径,具有很强的正反馈性、鲁棒性和全局寻优能力