布隆算法在网络爬虫中的应用

来源 :电子世界 | 被引量 : 0次 | 上传用户:hanleifeng222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的发展,尤其是手机以及各种智能联网设备的发展,互联网的数据规模越来越庞大。如此巨量的信息一方面丰富了人们的生活,但另一方面如何去除重复信息,获得有效信息也成为了互联网的一个重要问题。网络爬虫也面临着相同的去重问题。布隆算法是一种应用广泛的去重算法,有着查询速度快和占用空间低的优点。本文介绍布隆算法在网络爬虫中的应用,通过布隆算法来进行网址识别,过滤重复网址,提高爬虫性能。引言:随着计算机以及相关技术的发展,互联网的发展日新月异,总体规模也越来越大,对于经济、社会、科技的飞速发展起到了重大的作
其他文献
基于人类思维能力的语感是人类共有的,实践中语感已被人们所广泛使用.本着语言研究注重理论性和实践性的原则,将语感这一实用问题提出来开展理性的思考,旨在探究语言的内在规
2013 年 10 月 4 日,美国科罗拉多州 Springfield 郊外的麻类植物农场内的农夫在收割。图 /IC  “中国人,美国农场主。”  在2013年12月召开的2013年中国新农业产业年会上,张仁武只用了一句话做开场白,这比他名片上印着的四家公司的董事长头衔要简洁得多。过去两年,张在美国犹他州买下了两座农场,但只种植一样作物——苜蓿。  作为中国最大的苜蓿颗粒供应商,张仁武目睹了近年来
本文分析了中国职业教育在国家教育体系格局中存在的一些问题,提出了平等享有教育资源的一些思路,并就高等职业院校如何科学设置专业,加强教师队伍和实训基地建设,改革教育模
转化犯是中国刑法所独有的名称,是对犯罪行为发生转变后罪数形态的概括.转化犯的提出拓展了刑法罪数形态的理论,对司法实践有一定的指导意义.笔者认为转化犯应限于故意犯罪之
2014年的全国两会及省级地方两会已全部闭幕。盘点31省(区、市)政府工作报告,22省份下调了GDP增长目标,山西、内蒙古等7省份GDP增长目标与去年持平。今年,京沪两地GDP增长目标比上年调低0.2个百分点,降至7.5%;天津以调低1.5个百分点成为下调幅度最大的省市。主动降速的同时,各地更加注重提升发展的含金量,强调保护资源环境,着力提质增效。  看GDP增速  中国经济发展到了该考虑“综合油
Krashen提出的监控模式对自然条件下掌握一种语言和课堂环境中学习一种语言进行区分,产生"习得"和"学习"两个概念.本文旨在探讨将其相关理论运用到英语语音教学,通过大量自然
本文在研究SAR图像相干斑噪声特性的基础上,分析了四种抑制相干斑噪声的方法,即Lee滤波、Lee增强型滤波、Frost滤波、Gamma MAP滤波,并用目视效果、图像标准差、等效视数和边