论文部分内容阅读
目前,Web资源越来越丰富,内容越来越广泛,它已成为最重要的信息源。帮助用户快速、准确地查找和推荐有用的信息,具有广泛的应用背景和实用价值,已经成为近年来的研究热点。论文将Powazi.com中具有推荐功能的信息检索作为研究工作的应用背景,设计与开发了一个支持推荐的Web检索程序系统。综述了信息检索、推荐的理论和关键技术。依据传统信息检索与推荐方法,对改善Powazi.com的检索及推荐效果,进行了较深入的研究和实践。研究工作主要包括以下几个方面。(1)基于改进向量空间的检索算法研究。针对传统搜索引擎缺乏语义理解的缺点,在传统的信息检索方法上提出一个基于改进向量空间的检索算法。该算法采用统计法建立“文档—潜在语义一词”之间概率分布关系,并利用这种关系进行检索。当用户在Pwaltz的检索系统中输入查询关键字后,检索系统先使用VSM模型将文档中包含关键字的文档检索出,形成基本满足用户查询需求的结果集;接着使用PLSA模型,找出和关键词最相关的潜在语义,查找到的潜在语义查询和它最相关的文档,计算各个文档的关联度,并排列顺序。实验证明,关键词和文档的关系通过隐含语义层联系起来,使信息检索能够理解用户请求,改善了信息检索效果。(2)Pwaltz系统的推荐算法研究。将推荐问题转变成一个排序问题,提出了一种基于Random walk的机器学习调整异构资源网络参数算法。该方法采用机器学习确定不同类型节点之间边的权重,根据系统内信息的重要度和相似度,向用户提供:与查询关键词相关,并且在系统中比较重要的信息。实验证明,在推荐效果上基于Random walk的机器学习方法优于基线方法。(3)支持推荐的Web检索程序系统建构。按照Pwaltz系统的检索与推荐功能需求,采用JAVA编程实现了基于MVC的Web检索与推荐程序系统。该程序系统在采用lucene全文检索技术的基础上,依据基于改进向量空间的检索算法,基于Random walk的机器学习调整异构资源网络图参数算法,优化了系统的检索和推荐功能。通过系统演示,给出了从文档索引建立、准确性检索和多类型资源推荐的整个流程。综上所述,论文提出的:基于改进向量空间的检索算法,基于Random walk的机器学习调整异构资源网络图参数算法,具有模型简单、易于软件工程人员理解的特点。不仅在理论上值得深入研究,而且还具有较好的工程应用价值。