论文部分内容阅读
互联网的出现带来了网络信息高速发展的时期,同时也造成了信息的海量增长,互联网搜索引擎成为人们一项必不可少的工具。搜索引擎是网络信息检索最常见的工具,他涉及到多方面的内容,包括信息检索,数据挖掘,分布式处理,自然语言处理,因此具有很大的挑战性。随着信息的激增,查找精确信息变得越来越困难,如何改进现有的搜索引擎和系统,满足用户日益增长的信息需求,成为当今信息检索课题的一个重要方向。
本文将按照如下方式进行组织:第一章提出选题的意义,背景和本文的工作,着重研究了互联网的信息特征和目前搜索引擎的不足之处。第二章对搜索引擎做一个简要的综述,介绍互联网的发展和搜索引擎产生的必然联系,阐述了搜索引擎的发展历史和各个历史条件下具有代表性的搜索引擎的特征,搜索引擎的分类和模块组成。第三章介绍搜索引擎的改进分析,提出搜索引擎改进所用到的数据挖掘,个性化,自动聚类等方法并阐述了个性化搜索的基本模型。第四章,提出了改进搜索引擎的排序算法。第五章,介绍实现的搜索引擎系统平台。第六章,总结所做的工作,并对搜索引擎的发展做了展望。
本课题深入搜索引擎的原理,发展历史,目前发展现状和存在缺陷,同时对现有搜索引擎提出了若干改进:
●对数据挖掘和个性化搜索进行了研究,并提出一种基于个性化的搜索模型。
●在继承经典PageRank算法框架下,对PageRank算法做了修正,提出了一种改进的PageRank排序算法IPR(Improved PageRank)。
●合理利用社区发现和推荐信息,提出一种社区推荐技术的排序算法CRR(Community and Reconmaendation Rank)。
●实现了一个搜索引擎系统ImprovedSearch。