论文部分内容阅读
随着计算机和网络技术的飞速发展,互联网逐渐走进了人们的日常生活,彻底改变了人们获取信息的方式。海量的网络信息为满足用户的信息需求提供了保证,给人们带来了极大的便利。但是,网络信息的多样性和多变性导致了信息的过度膨胀,带来了信息过载问题,使人们难以快速、准确地从浩瀚的信息资源中寻找所需要的信息。推荐系统通过对用户行为数据进行分析、建模,预测并推荐用户可能感兴趣的产品,可以一定程度上解决信息过载问题。另一方面,推荐系统是大数据背景下研究和应用海量数据的热点领域,是网络时代向信息时代转变的重要技术。正是由于其巨大的理论及应用价值,推荐系统及相关技术成为近年来研究的热门课题,受到了学术界和产业界的广泛重视。推荐系统的目标是帮助用户选择一些用户自己可能感兴趣的产品,并将其以合适的形式展现给用户,Top-N推荐是其中的重要问题。协同过滤推荐算法是推荐系统中的关键技术之一,在理论研究和实际应用两方面都获得了长足的发展。但是,随着用户数量和系统规模的不断扩大,协同过滤推荐技术仍然存在着一些亟待解决的问题,包括数据稀疏性、冷启动、流行偏置、可扩展性、动态性、准确率和多样性等。本论文主要研究解决其中的数据稀疏性和流行偏置问题,具体研究内容和创新成果包括:1)针对协同过滤推荐中的流行偏置问题,即传统推荐算法往往倾向于推荐流行度较高的产品,提出了一种基于意见的协同过滤推荐算法。本论文从用户行为数据的产生过程对用户模型的影响进行分析,考虑用户行为受到各种广告、口碑、推荐等因素的影响,针对不同行为对用户模型的表达能力不同,利用用户意见信息和产品流行度信息构建用户行为的置信度函数,并使用该置信度函数调节产品对用户模型的影响,提出了基于意见的协同过滤推荐算法。实验结果表明该算法比传统的推荐算法具有更好的Top-N推荐准确率和多样性,可以有效缓解推荐系统的流行偏置问题。2)针对协同过滤推荐的数据稀疏性问题,提出对缺失数据中的负例信息建模的方法,并将其用于改进矩阵分解推荐算法。数据稀疏性问题是指推荐系统中的用户-产品评分矩阵极其稀疏,大量评分数据缺失,为推荐系统挖掘用户兴趣、向用户推荐产品带来了极大挑战。本论文考虑在数据稀疏背景下,缺失数据中包含用户兴趣的负例信息,分别提出加权法、随机抽样法和近邻抽样法三种对缺失数据建模的方法,识别其中用户兴趣的负例信息,并利用这些负例信息调节推荐模型的训练过程,改进矩阵分解推荐算法。实验结果表明这些改进算法有效提升了基线算法的Top-N推荐准确率和多样性。3)针对协同过滤推荐算法中传统用户行为模式假设用户随机选择产品并评分的局限性,考虑用户选择产品并决定对其评分本身就是一种用户兴趣的体现,提出两阶段用户行为模式和两步预测推荐算法。两阶段用户行为模式将用户选择产品进行评分和用户给出对产品的评分值区分开来,将其视为用户行为的两个阶段。为验证两阶段用户行为模式的有效性,本论文分析了它与传统用户行为模式的区别,并利用真实的推荐系统数据集进行了数据分析和验证。之后,通过对两阶段用户行为模式的仿真,提出一种两步预测推荐算法框架,分两步预测用户对产品评分的概率和用户对产品的评分值,然后整合两步预测的结果完成推荐任务。最后,本论文提出了两种两步预测推荐算法框架的具体实现,分别是基于近邻的两步预测推荐算法和基于模型的两步预测推荐算法。实验结果表明,两步预测推荐算法的Top-N推荐效果优于主流推荐算法,验证了两阶段用户行为模式和两步预测推荐算法的有效性。