基于Python的分布式多主题网络爬虫的研究与设计

来源 :开封大学学报 | 被引量 : 0次 | 上传用户:ntcao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统网络爬虫抓取速度较慢的问题,提出了基于Python的分布式多主题网络爬虫的研究与设计。首先,通过Python集群与Storm集群的组建,搭建了网络爬虫的分布式物理架构,通过指标计算部分和处理部分,搭建了网络爬虫的分布式逻辑架构,两种架构共同组成了分布式多主题网络爬虫的总体架构;其次,通过API接口抓取数据、GUI接口下载数据、编写爬虫程序下载数据的设计,完成了网络爬虫的抓取途径设计。实验证明,这样设计出的网络爬虫拥有较高的抓取速度。
其他文献
互联网的发展为思想政治教育提供了重要载体。新时代培育与弘扬中华民族精神需要充分利用网络平台的传播优势,发挥互联网保存与提取信息的功能。要设立主题教育网站,创建慕课、网络账号,开发网络电影与电视节目,通过新兴网络传媒介质传播红色文化,培育和弘扬民族精神,以增强中华民族精神培育与传播的创新性和实效性。
GIS技术是一门综合性学科,它涉及的学科范围非常广泛,如计算机科学、遥感测绘学、地理学、数据分析学、管理学等.随着我国城市化进程的不断加快,城市道路交通体系的发展也日
黄河流域是中原文化的发源地,有着丰富的历史文化资源,包括艺术资源。黄河流域的民歌艺术,体裁多样、风格鲜明,独具特色,是地方音乐艺术瑰宝。将黄河流域民歌这一非物质文化遗产引入高校音乐教学中,是弘扬民族优秀传统文化的重要手段之一,也是传承和保护地方特色音乐文化的重要途径之一。
广播电视新闻媒体在现代媒体行业中属于十分重要的两种形式,并且在现代媒体行业中占据重要地位.在新媒体时代,为符合时代特点及发展趋势,需要实现广播电视新闻媒体融合发展,
中外合作办学作为一种新的教育形式,有利于推进我国高等教育改革,更好满足人民高质量教育需求。但在中外合作办学模式下,教育理念、办学方法、课程设置等与我国普通高校存在较大不同,给合作办学院校的思想政治教育工作带来了新的挑战。目前,中外合作办学模式下大学生思想政治教育存在着高校重视程度不足、课堂教学效果不佳、德育工作队伍薄弱和党团组织不够健全等问题。对此,应当从提升高校思想政治教育的地位、强化教学实效性、加强教师队伍建设和完善党团组织建设等方面予以完善。
随着我国经济的发展和工业化、城镇化的到来,人民的生活水平有了显著提高,跨域流动越来越多,交通运输业也有了新的发展.相对于公路、水运等运输工具,铁路运输存在着显著优势,
卫生监督档案建设不仅关乎我国城镇医疗卫生发展速度,也会影响到地方卫生监督部门的工作质量,因此,地方卫生监督管理部门必须高度终生档案信息化建设工程,保障卫生监督档案的
智能建筑是建筑行业后期发展的基本方向,智能建筑融合了新科技,在功能上更加全面,居住舒适度更高,但是由于其建设成本较大,在建设过程的造价管理十分关键,只有科学控制造价,
有限差分法是电磁场数值计算方法中最早应用的一种方法,以其方法简单直观、概念清晰,有大致固定的处理和计算模式,具有一定的通用性等特点,得到了广泛的应用.本文通过对五点
现代建筑工程的目标越来越严格与复杂,项目设计多表现为大规模和大跨度的建筑,附加信息也种类繁多,施工工作中的不确定性和风险也随之增大.但是建筑工程常表现出材料消耗量与