论文部分内容阅读
随着互联网的极速发展,企业、学校、社区存储在网络上的信息数据越来越多。传统的通用搜索引擎因其爬虫循环周期长、资源维护更新慢、使用成本高、检索内容宽泛等原因,无法适用于专用性强,数据更新频繁、成本受限、检索精度要求高的企业网络。本论文针对企业网特点,引入网页更新时间的影响,将词频位置加权算法和PageRank算法相结合,设计了一种针对企业网的评分排序算法,同时改进现有分词方法,设计并实现了一个面向企业网的搜索引擎。本文主要贡献如下:1.对搜索引擎相关技术和Hadoop分布式平台相关技术进行研究。本文对搜索引擎主要构成和相关关键技术进行了研究,对倒排索引、中文分词、排序评分、ROBOTS协议等多个方面的技术进行了介绍分析。本文对Hadoop分布式平台相关技术进行了分析研究,着重对MapReduce和HDFS进行了详细的分析研究。2.设计了一个针对企业网的全文检索评分排序算法。影响全文检索准确率的关键因素是文档评分算法和中文分词算法。本文结合词频加权算法和PageRank算法,并引入时间影响因子,设计了一个面向企业网的全文检索评分算法。为了使本文设计的评分排序算法拥有更好的效果,本文引入了Ik Analyzer分词,针对IK Analyzer分词在歧义消除方面的不足,本文基于双字耦合度歧义消除算法对分词算法进行了改进。3.在Hadoop分布式平台上设计并实现了一个针对企业网的分布式搜索引擎。本文在Hadoop分布式平台之上,引入设计的全文检索评分算法,结合分布式编程模型MapReduce和Hadoop分布式文件系统HDFS,对企业网搜索引擎分模块进行了设计并予以了实现。4.对实现的分布式搜索引擎进行了测试研究。本文最后对设计实现的搜索引擎进行了测试分析,在实验室部署一个3节点的分布式搜索引擎,对其进行了相关的测试工作。