论文部分内容阅读
随着互联网的飞速发展,现代社会正处于一个信息爆炸的时代。人们在任何时间、任何地点都可以通过网络发布任何消息,毋庸置疑,网络已经深入到我们生活的方方面面,在很大程度上影响并改变着人们的生活方式。面对如此纷繁复杂的互联网信息,如何有效地处理和利用这些浩瀚如烟的数据,成为人们不得不面对的一个巨大挑战。因此,对网络上信息的采集、分析、发布以及相关的信息处理正日益成为国内外学者和机构研究的热点。通过阅读大量的国内外相关文献,本文分析了目前信息采集系统的研究现状以及发展趋势,阐述了本课题的研究意义和实用价值。本文通过大量的文献资料研究了信息采集系统的相关技术,包括网络爬虫技术、代理服务器技术、种子URL的提取和正规化处理、正则表达式以及中文切词等技术。本系统使用C#语言开发了一个基于新闻和论坛的综合信息采集系统,该信息采集系统实现的采集网站有新浪新闻、腾讯新闻、搜狐新闻、网易新闻、天涯论坛和猫扑论坛。与针对某一个特定网站的单一的信息采集系统相比,本系统可以实现对多个网站进行同时采集,而不影响采集的速度和准确性。本系统还实现了根据用户需要随时增删采集频道的功能,增加了系统的使用灵活性。在本系统的设计过程中,使用的是MySQL数据库,用于系统设置以及种子URL和信息采集结果的存储和提取。本系统所使用的数据库名为MSD0,该数据库涉及到的主要的数据表有三个:final表、news表和AdminInfo表。本系统的设计主要包括五个模块:系统登录界面、数据抓取模块、数据库访问模块、数据处理模块和增删URL模块。在介绍该信息采集系统的设计的过程中,本文详细阐述了信息采集模块、数据处理模块和增删URL模块的设计和实现。信息采集模块是本系统的核心部分,能够响应用户的操作,根据用户对采集来源和采集深度的选择,针对不同网站进行信息采集,并同时显示信息采集的结果。数据处理模块可以实现对采集到的信息进行抽取和切词的处理,以便进行后续的分析,另一方面,在用户需要的情况下,本模块还可以实现对切词后的结果进行词性标注的功能。增删URL模块实现的功能是添加采集源。本文还以新浪新闻、腾讯新闻、网易新闻和搜狐新闻的抓取为例,对本系统的使用进行了详细的演示,并以这四大新闻网站作为测试网站,以“中小学教材”作为采集主题,对本系统进行了性能测试和分析。通过测试,本文分析了该系统的采集速度和采准率,发现系统对于一般的静态WEB页面具有较好的抓取效果,而且速度也相对较快。