基于新闻和论坛的信息采集系统的设计与实现

被引量 : 0次 | 上传用户：maoloye

【摘要】

：

随着互联网的飞速发展，现代社会正处于一个信息爆炸的时代。人们在任何时间、任何地点都可以通过网络发布任何消息，毋庸置疑，网络已经深入到我们生活的方方面面，在很大程度上影响

【作者】

：

孔丽园

【发表日期】

：

2014年期

【关键词】

：

信息采集系统网络爬虫数据抓取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的飞速发展，现代社会正处于一个信息爆炸的时代。人们在任何时间、任何地点都可以通过网络发布任何消息，毋庸置疑，网络已经深入到我们生活的方方面面，在很大程度上影响并改变着人们的生活方式。面对如此纷繁复杂的互联网信息，如何有效地处理和利用这些浩瀚如烟的数据，成为人们不得不面对的一个巨大挑战。因此，对网络上信息的采集、分析、发布以及相关的信息处理正日益成为国内外学者和机构研究的热点。通过阅读大量的国内外相关文献，本文分析了目前信息采集系统的研究现状以及发展趋势，阐述了本课题的研究意义和实用价值。本文通过大量的文献资料研究了信息采集系统的相关技术，包括网络爬虫技术、代理服务器技术、种子URL的提取和正规化处理、正则表达式以及中文切词等技术。本系统使用C#语言开发了一个基于新闻和论坛的综合信息采集系统，该信息采集系统实现的采集网站有新浪新闻、腾讯新闻、搜狐新闻、网易新闻、天涯论坛和猫扑论坛。与针对某一个特定网站的单一的信息采集系统相比，本系统可以实现对多个网站进行同时采集，而不影响采集的速度和准确性。本系统还实现了根据用户需要随时增删采集频道的功能，增加了系统的使用灵活性。在本系统的设计过程中，使用的是MySQL数据库，用于系统设置以及种子URL和信息采集结果的存储和提取。本系统所使用的数据库名为MSD0，该数据库涉及到的主要的数据表有三个：final表、news表和AdminInfo表。本系统的设计主要包括五个模块：系统登录界面、数据抓取模块、数据库访问模块、数据处理模块和增删URL模块。在介绍该信息采集系统的设计的过程中，本文详细阐述了信息采集模块、数据处理模块和增删URL模块的设计和实现。信息采集模块是本系统的核心部分，能够响应用户的操作，根据用户对采集来源和采集深度的选择，针对不同网站进行信息采集，并同时显示信息采集的结果。数据处理模块可以实现对采集到的信息进行抽取和切词的处理，以便进行后续的分析，另一方面，在用户需要的情况下，本模块还可以实现对切词后的结果进行词性标注的功能。增删URL模块实现的功能是添加采集源。本文还以新浪新闻、腾讯新闻、网易新闻和搜狐新闻的抓取为例，对本系统的使用进行了详细的演示，并以这四大新闻网站作为测试网站，以“中小学教材”作为采集主题，对本系统进行了性能测试和分析。通过测试，本文分析了该系统的采集速度和采准率，发现系统对于一般的静态WEB页面具有较好的抓取效果，而且速度也相对较快。

其他文献

芝麻种子贮藏管理技术

芝麻种子内含有较高的脂肪和丰富的蛋白质,通透性差,易吸湿返潮,发热变霉,一般条件下不耐贮藏。根据芝麻种子的贮藏特性采用恰当的贮藏管理措施,以确保种子的使用价值,保证农

期刊

芝麻种子贮藏管理

岩体基坑地下室抗浮设计水头合理取值研究

本文主要围绕岩体基坑地下室抗浮设计水头取值问题，针对平坦地貌和坡地地貌对其进行研究。通过理论分析提出施工期间极端天气条件下，地下室抗浮水头取值建议公式，以便设计和施工

学位

岩体基坑施工期间抗浮水头渗流坡地地貌

辽河保护区水生态监测指标体系构建的研究

辽河是国家“水专项”重点治理河流之一,也是辽宁的母亲河。“十一五”期间,通过对辽河的治理,辽河水质状况正朝着好的趋势发展,但是辽河污染状况并没有从根本上得以解决,辽

学位

水生态监测指标筛选权重

蒲灵化瘀止痛方调控子宫腺肌病小鼠病灶血管生成的雌激素效应靶点的研究

目的：以雌激素效应相关因子、血管生成相关因子及其相互作用为靶点,探讨在AM小鼠疾病发生发展的不同时间段及子宫在位及异位内膜不同空间部位,疾病的主导机制,蒲灵化瘀止痛方

学位

子宫腺肌病动物模型P450COX-2ERaVEGFENSCD31IMMP-2TIMP-2

特征选择方法中三种度量的比较研究

不同类型数据中特征与类别以及特征与特征之间存在一定的线性和非线性相关性。针对基于不同度量的特征选择方法在不同类型数据集上选取的特征存在明显差别的问题,本文选择线

期刊

特征选择线性相关系数对称不确定性互信息基于相关性的快速特征选择方法

扫描红外光学系统参数检测的研究

圆锥扫描红外光学系统,是红外探测制导技术中一种常用的技术方案,目前主要应用于战术导弹导引头和机载红外搜索跟踪系统中。圆锥扫描红外光学系统与传统的可见光系统不同,其

学位

圆锥扫描红外光学杂散光分析精度测试

黔东北地区南华纪锰矿基本特征

黔东北地区"大塘坡式"锰矿,产于南华系大塘坡组底部炭质页岩中.含锰沉积盆地受北东向古断裂的控制,矿床呈北东向展布.本文总结了区内锰矿成矿地质条件、分布特征、成矿规律、

期刊

锰矿大塘坡式成锰盆地成矿规律找矿标志黔东北

心不停跳体外循环对肾功能的影响

目的：观察心不停跳心内直视术体外循环（CPB）对行二尖瓣置换术患者术后早期肾功能的影响。方法：40例行二尖瓣置换术患者随机分为2组：C组（心停跳CPB组）,B组（心不停跳CPB组）,每组20例。B

期刊

心不停跳心内直视术体外循环肾功能血清肌酐血尿素氮α1微球蛋白

基于数字散斑相关方法的测量技术研究

随着材料技术的不断发展，各种新型材料相继涌现，使得相关科研领域的应用也受到广泛的关注。材料的机械力学性能检测为材料技术发展提供了重要的数据依据。与传统方法相比，数字散

学位

数字散斑相关方法粒子群优化算法摄像机标定材料测试

红外导引头动态跟踪特性评价系统的研究与实现

本测试系统采用计算机数字控制技术、基于动像传递函数的光学测量技术、模糊PID控制技术,建立了飞行器成像制导系统飞行状态下动态目标捕获像质评价多参数测试平台,探索了飞

学位

PID控制红外黑体动像传递函数跟踪特性

基于新闻和论坛的信息采集系统的设计与实现

其他学术论文