论文部分内容阅读
步入新世纪之后,随着计算机和智能手机的持续普及以及互联网的蓬勃发展,网络已经渗透到日常生活的各个角落,但是互联网中的信息量也因此表现出指数级的激增,导致了信息过载的问题。因此,人们在互联网庞大的数据中发现自己需要的信息变得越来越困难。个性化推荐系统的诞生为处于在互联网数据爆炸时代的人们提供了新的应对工具,其优异的性能吸引了各界科研人员的持续关注。不同与传统的搜索引擎,推荐系统能主动地为用户提供准确并且个性化的推荐结果,因而广受好评。本文论述了推荐系统的相关背景知识,同时介绍了多种当下热门的推荐算法以及常用的算法评价指标。基于协同过滤的推荐算法作为目前影响最为深远并且应用最为普遍推荐算法之一,获得了极高的关注度,本文提出的两种算法也是基于此算法的基础上进行的改进,所以在第二章对协同过滤算法的流程进行了详细的描述。传统的协同过滤算法存在着个性化程度不足、数据稀疏所导致的推荐精度不高等缺陷。针对这些问题,本文通过对协同过滤算法流程进行深入的分析,发现传统的方法预测评分时仅考虑正相关最近邻居而忽略了负相关最近邻居的影响,因此,本文提出了一种基于正相关和负相关最近邻居的协同过滤推荐算法(PNCF)。该算法首先计算每个用户的变异系数,并利用用户之间变异系数的差异得到修正因子,通过修正因子修正相似度的计算结果,根据修正后的相似度对邻居集合进行排序,并且用一定的选取规则分别选取正相关最近邻居和负相关最近邻居,基于选取的正相关最近邻居和负相关最近邻居分别进行预测评分。最后,将基于正相关最近邻居和负相关最近邻居的预测评分赋予不同的权重,其结果作为最终的预测评分。实验结果证明了本文提出的算法在有效的提高了推荐准确性的同时也增加了推荐结果的多样性程度。虽然本文提出的PNCF算法一定程度上提高了推荐的准确性和多样性,但是当用户之间共同项目个数过少时,计算得到的相似度准确性较低,尤其是当共同项目个数为0时,更是无法计算相似度的值。于是,本文在PNCF算法的基础上对相似度的计算进行了进一步改进优化,提出了基于正相关和负相关最近邻居的协同过滤推荐算法改进(IPNCF)。该算法在计算相似度时,如果用户之间的共同项目个数小于给定的阈值时,则结合用户-项目评分矩阵以及项目-属性矩阵为用户构建两种类型的特征向量,分别计算用户对应类型的特征向量之间的相似度,最后对计算的相似度结果赋予不同的权重,进而得到最终的相似度。实验结果证明本文提出的PNCF算法以及IPNCF算法均能在提高推荐准确率的同时增加推荐结果的多样性。