论文部分内容阅读
随着互联网技术的发展和普及,大量信息以网站作为载体向经济,社会和生活的各个领域提供服务,但是从2001年到2011年互联网上的数据信息从1万P增值到1亿P,从浩如烟海的信息中快速查找用户需要的信息成为所有互联网用户的迫切需求。史坦福大学的几个学生为此做出了巨大贡献,搜索引擎Google的出现迅速改变人们原有的上网习惯,但是伴随着互联网的进一步发展,尤其分布式云计算技术的发展,传统的包罗万象的搜索引擎已经不能满足用户的需求,在现实需求的驱动下基于云计算的个性化推送搜索服务技术诞生了。推送搜索是针对某一个特定的需求或一类特定的用户群的专业搜索引擎,是传统搜索引擎的细分和延伸,是对网页库中的类别信息进行分类细化,即搜索领域的行业化分工和对用户的精确定位和细化。例如推送服务是指搜索引擎通过记录并分析用户的上网行为,建立多维的学习模型。依据建立的用户模型,当用户接入互联网时,推送搜索引擎可以直接从浩如烟海的信息中过滤用户需要的信息。于是用户在互联网访问的任何信息都是针对他个人的模型定制且由推送搜索引擎提供的信息。本文来源于和某电信运营商的合作项目,主要完成了以下工作(1)分析了搜索引擎特别是推送搜索引擎和云计算计算的发展现状,阐述了相关技术的优点和前景,介绍了本系统的工作原理和工作流程;(2)根据电信行业移动互联网的发展趋势,改进了信息搜索的设计思想,针对移动互联网对信息精确性和有效性的更高要求,引入关键词基础词库和基础拓展;(3)结合云计算架构强大的存储和运算能力设计并实现了一个基于网页数据的全文搜索引擎系统,实现网页分词统计,用户个性化模型,网页去同质化等功能;