基于网页信息自动提取的分布式爬虫系统设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：yueyingz4l

【摘要】

：

【作者】

：

杨本栋

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2021年01期

【关键词】

：

网页信息提取自动化分布式爬虫

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据爆发式增长,大数据时代到来,互联网每天产生难以计数且各式各样的数据。这些数据蕴含的信息具有巨大的研究价值和商业价值。学者及企业希望获取知识类、资讯类、政策法规类等文章型网页中有价值的信息,不仅要求数据量大、格式规范统一、时效性强,还希望获取信息的成本低、效率高。现实中网页结构各异且都包含大量与主题无关的网页噪声,如何从互联网蕴含的海量信息中以较高的效率、极快的速度获取有价值的结构化信息是一个值得研究的课题。本文选题来源于企业项目,研究文章型网页的信息自动提取算法,设计实现了基于网页信息自动提取算法的分布式网络爬虫系统,提高了信息获取的效率,具体如下:（1）针对现有网页信息提取算法提取精度不足、提取信息缺失和上下文信息利用较少的问题,提出了一种基于视觉块一致性和序列标注的文章型网页元数据提取算法。根据文章型网页的视觉特征对网页进行分块预处理,将网页节点划分为多个一致性视觉块;利用统计特征定位网页主体区域,过滤掉大量噪音信息;选择文本、视觉和词典特征作为特征集进行特征提取,利用条件随机场模型进行序列标注,提取标题、正文、作者、来源、发布时间、图像和附件等信息。最后对算法进行了实验和对比分析。（2）设计实现了基于网页信息提取算法的分布式爬虫系统。本文分析了企业需求并对系统进行了总体设计,将系统分为数据采集层、数据解析层、数据存储层、节点接入层和系统管理层。针对现有分布式爬虫存在的问题,引入网页信息自动提取算法代替人工编写解析脚本,提出了一种无中心的基于动态反馈的任务调度策略,提高了系统可靠性和抓取效率。接下来本文对系统各模块进行了设计与实现。最后,本文对系统进行了性能和功能测试。

其他文献

多元智能视角下高中语文项目式教学设计研究——以“文学阅读与写作”任务群为例

新课改下高中语文教学发生巨大变革,要求教师在关注学生智力提升的同时,更注重学生全面、个性化发展.加德纳多元智能理论打破传统“智力一元论”,关注学生间差异,注重个性发展,与我国当前教育改革理念不谋而合.本文从多元智能理论的内涵出发,以“文学阅读与写作”任务群为例,探寻多元智能理论指导下项目式任务群应该如何教学.

期刊

多元智能核心素养项目式教学任务群教学

基于“双线”结构的《祝福》教学策略研究

部编版高中语文教材创新单元组合方式,以“双线”的形式编排教材,力求在发展学生审美认识能力的同时,进行语文的工具性训练.本文以《祝福》为例,探讨如何以主线带动副线,发展学生对自然、人生、社会的认识能力,同时在过程中穿插语文知识、语文能力的训练,共同落实“立德树人”的教育目标.

期刊

双线结构《祝福》教学策略

“大学语文”课程身份确认下的目标获得

2018年1月,“大学语文”被教育部确认为通识课程,课程身份在历史进程中被拆解、分裂,逐步形成了新时期大学语文的培养目标:重在提升学生的语文素养和人文素养.厘清通识课与专业课不同的人才培养方向和能力训练方向,紧扣学生日常生活和社会经历,从文本中提炼与之相应的人文话题,设计课堂教学方案,激发学生兴趣和热情,达致教学内容的完整性,是新时期大学语文的目标获得路径.

期刊

大学语文课程身份形式话题路径

浅谈实用类文本细读的技巧和重要性

任何一篇课文的教学都需要立足于文本本身.文本是关键,是教学的可靠抓手.但从目前状况来看,对于文学类文本的解读处于遍地开花的状态,同时形成了较权威的文本解读理论体系,对于实用类文本的解读则相对较少.本文尝试着划分和细读不同实用类文本,引起对实用类文本细读的重视及实用类文本阅读的思考.

期刊

实用类文本文本细读技巧重要性

基于迁移学习的加密流量分类系统的设计与实现

随着互联网的光速发展,最近几年,用户数据的频繁泄漏导致的用户的隐私安全愈发受到公众的关注,应用厂商开始倾向于使用加密流量来给用户带来安全感。但是由于加密流量具有隐蔽性的特点,也会让基于传统明文流量的分类方法效果变得很差,同时会给网络自动化运维、网络安全管理以及网络质量保障服务等相关网络服务带来了很大的障碍,加密流量的分类已经成为网络安全和管理急需解决的问题。最近几年来,迁移学习在自然语言处理、计算

学位

迁移学习深度学习加密流量分类注意力机制数据不均衡

基于空间调制的物理层安全技术研究

近些年来,通信技术正在以飞快的速度进行革新,无线通信摆脱了有线的束缚,但是其开放的通信媒介给无线通信的安全带来了巨大的隐患。因此,无线通信中的信息安全问题已日益成为人们关注的一个重要问题,也成为学术界和工业界的一个热点研究问题。信息安全的传统方法是各种基于密钥的加密及认证技术。对无线通信来说,由于合法接收者和窃听者之间的物理信道天然存在差异性,因此可以利用这种差异性来实现物理层的安全传输。近年来学

学位

空间调制物理层安全预编码误码率

基于网页信息自动提取的分布式爬虫系统设计与实现

其他学术论文