Top-N协同过滤推荐技术研究

被引量 : 66次 | 上传用户:cloudzhu429
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和网络技术的飞速发展,互联网逐渐走进了人们的日常生活,彻底改变了人们获取信息的方式。海量的网络信息为满足用户的信息需求提供了保证,给人们带来了极大的便利。但是,网络信息的多样性和多变性导致了信息的过度膨胀,带来了信息过载问题,使人们难以快速、准确地从浩瀚的信息资源中寻找所需要的信息。推荐系统通过对用户行为数据进行分析、建模,预测并推荐用户可能感兴趣的产品,可以一定程度上解决信息过载问题。另一方面,推荐系统是大数据背景下研究和应用海量数据的热点领域,是网络时代向信息时代转变的重要技术。正是由于其巨大的理论及应用价值,推荐系统及相关技术成为近年来研究的热门课题,受到了学术界和产业界的广泛重视。推荐系统的目标是帮助用户选择一些用户自己可能感兴趣的产品,并将其以合适的形式展现给用户,Top-N推荐是其中的重要问题。协同过滤推荐算法是推荐系统中的关键技术之一,在理论研究和实际应用两方面都获得了长足的发展。但是,随着用户数量和系统规模的不断扩大,协同过滤推荐技术仍然存在着一些亟待解决的问题,包括数据稀疏性、冷启动、流行偏置、可扩展性、动态性、准确率和多样性等。本论文主要研究解决其中的数据稀疏性和流行偏置问题,具体研究内容和创新成果包括:1)针对协同过滤推荐中的流行偏置问题,即传统推荐算法往往倾向于推荐流行度较高的产品,提出了一种基于意见的协同过滤推荐算法。本论文从用户行为数据的产生过程对用户模型的影响进行分析,考虑用户行为受到各种广告、口碑、推荐等因素的影响,针对不同行为对用户模型的表达能力不同,利用用户意见信息和产品流行度信息构建用户行为的置信度函数,并使用该置信度函数调节产品对用户模型的影响,提出了基于意见的协同过滤推荐算法。实验结果表明该算法比传统的推荐算法具有更好的Top-N推荐准确率和多样性,可以有效缓解推荐系统的流行偏置问题。2)针对协同过滤推荐的数据稀疏性问题,提出对缺失数据中的负例信息建模的方法,并将其用于改进矩阵分解推荐算法。数据稀疏性问题是指推荐系统中的用户-产品评分矩阵极其稀疏,大量评分数据缺失,为推荐系统挖掘用户兴趣、向用户推荐产品带来了极大挑战。本论文考虑在数据稀疏背景下,缺失数据中包含用户兴趣的负例信息,分别提出加权法、随机抽样法和近邻抽样法三种对缺失数据建模的方法,识别其中用户兴趣的负例信息,并利用这些负例信息调节推荐模型的训练过程,改进矩阵分解推荐算法。实验结果表明这些改进算法有效提升了基线算法的Top-N推荐准确率和多样性。3)针对协同过滤推荐算法中传统用户行为模式假设用户随机选择产品并评分的局限性,考虑用户选择产品并决定对其评分本身就是一种用户兴趣的体现,提出两阶段用户行为模式和两步预测推荐算法。两阶段用户行为模式将用户选择产品进行评分和用户给出对产品的评分值区分开来,将其视为用户行为的两个阶段。为验证两阶段用户行为模式的有效性,本论文分析了它与传统用户行为模式的区别,并利用真实的推荐系统数据集进行了数据分析和验证。之后,通过对两阶段用户行为模式的仿真,提出一种两步预测推荐算法框架,分两步预测用户对产品评分的概率和用户对产品的评分值,然后整合两步预测的结果完成推荐任务。最后,本论文提出了两种两步预测推荐算法框架的具体实现,分别是基于近邻的两步预测推荐算法和基于模型的两步预测推荐算法。实验结果表明,两步预测推荐算法的Top-N推荐效果优于主流推荐算法,验证了两阶段用户行为模式和两步预测推荐算法的有效性。
其他文献
基于焦平面阵列的非扫描激光成像雷达技术因其宽视场、高可靠性、高分辨率、高帧频、成像速度快以及所成图像无失真等特点,已成为世界各国目前研究的热点和重点,并在军事领域和
我国商业地产经过近年来的不断发展和壮大,取得了良好的成绩,建设规模已赶超了许多发达国家,特别是商业地产领军企业万达集团,目前已成为全球第二大不动产企业,在经营和管理方面也
激光是人类在上世纪众多伟大的科技成就之一,有着广泛的用途。本文研究的主要内容是基于六象限探测结构的激光探测系统,研究了激光探测的相关理论和关键问题,提出了目标判别方法
危险驾驶罪作为一个新增罪名出现在《刑法修正案(八)》中,与交通肇事罪共同构成我国刑法第一百三十三条。危险驾驶罪的出现反映了社会的现实需要,体现了时代的呼声。从该罪入罪正
介绍了乾隆年间的彩瓷生产发展概况,从胎釉、彩料、造型、纹饰、款识等角度分析了乾隆彩瓷的特点。
语言的羡余性是指语言的意义和语言的形式不对称的一种现象,它也是语言的本质特征之一,和语言的生成性、模糊性一起作为语言的三大本质特征。羡余现象不仅在汉语中存在,在其他语
安乐死是指出于人道主义精神,为了消除身患绝症患者的身心极端痛苦,根据患者的自愿,由医生对其实施安乐死的行为。大部分人对“安乐死”这个词语并不陌生,但是其真正的概念并没有
本文介绍了一种基于ARM7处理器的高速、高精度、多通道数据采集系统的设计和实现,首先对模拟信号调理电路设计进行了讨论,其次介绍了基于ARM处理器S3C44B0X和模数转换芯片AD7
对人工养殖的一龄哲罗鱼肌肉的营养组成进行分析,为营养生态生理的研究提供基础资料。采用国家标准方法测定粗蛋白、粗脂肪、灰分、氨基酸。结果显示:肌肉(鲜样)中粗蛋白质含量为
为了在低信噪比的情况下,能够用很少的采样样本得到很高的检测概率,考虑到现实生活中噪声和信号在传输过程中的衰落,所以在非白高斯信道中采用线性模型对信号进行估计,在此基础上