数据稀疏环境下的混合协同过滤推荐算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:sdrtgwdrtwertwert
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今社会,网络已经成为人们获取信息的主要来源。海量的数据信息使得人们很难能够快速获取满足自己需求的信息,而推荐系统能够帮助人们实现这一目标。协同过滤推荐算法是推荐算法中被应用最成熟、最广泛的算法,但其数据稀疏性问题往往制约着推荐质量。本文针对数据稀疏环境下的协同过滤推荐算法进行研究,从不同的角度提出了相应的改进算法,用来提高推荐的精确度。本文首先从用户之间相似度计算的准确性角度进行研究,提出了一种基于评分信息熵的协同过滤推荐算法PRE-CF。该算法将用户评分信息熵与改进的Pearson相似度计算方法相融合形成一种新的相似度计算方法,通过实验表明该算法能够更准确计算用户之间的相似度,提高了推荐精度。接着从原始评分矩阵数据稀疏的角度进行研究,本文提出了一种基于矩阵预填充的协同过滤推荐算法SVDBCF。该算法首先利用slope one算法对原始评分矩阵进行评分预测和初次填充,接着使用SVD算法对初次填充后的矩阵进行评分预测,并将预测所得评分填充到初始的评分矩阵中,然后使用融合巴氏系数的相似度计算公式对填充后的评分矩阵进行相似度计算。通过对比实验证明该算法改善了评分矩阵稀疏所带来的预测评分偏差,相比传统推荐算法有更好的推荐效果。然后从混合算法和用户数据可信度的角度进行研究,本文提出了一种融入信任因子的混合推荐算法CPEBCTCF。该算法首先使用slope one算法以及SVD算法进行评分矩阵的数据填充,然后在权重融合的相似度公式中加入用户之间的信任因子,形成一种混合相似度计算方法进行相似度计算,并在数据集上进行对比实验。结果表明该算法相比较之前所提的两种算法,在数据稀疏环境下拥有更高的推荐精度。最后基于CPEBCTCF算法设计了一个简易的电影推荐系统,本文讨论了该系统的功能需求,分析和设计了系统的架构、功能模块以及数据库,并展现了系统的各个功能实现效果;从而验证了CPEBCTCF算法具有一定的实用性。
其他文献
近年来,随着基于5G的物联网的发展,无线终端数量及其产生的数据呈现了爆炸性的增长。面对计算密集型的深度学习应用,集中式训练深度模型对计算性能和通信连接都提出严峻的挑战,迫切需要把计算资源前移至接近数据源的节点,以分布式的方式训练深度模型以降低对计算和和通信的资源需求。本文使用的分布式技术是交替方向乘子法(Alternating Direction Method of Multipliers,ADM
歌剧是集音乐、舞蹈、戏剧、文学、舞台艺术于一体的综合性艺术形式,产生于16世纪末的意大利。经过我国几代老艺术家不断地辛勤探索,在吸收外来艺术形式的同时与我国传统文化相结合,创造出具有中国民族特色的中国歌剧,《悲怆的黎明》作为新时代的一部大型歌剧,该剧的成功同时也激励了我国民族歌剧的艺术创作。《悲怆的黎明》描述了东北某公学一群热血青年为了新中国成立在战火中浴血奋战的悲壮历程,歌剧中的革命先辈们成就大
随着时代的发展,生产力的提高,有许多人从繁琐的工作中解脱出来,这一切则归功于工业机器人的发展。同时工业机器人技术也随之大幅度提升,人机交互技术也得到了快速的发展,其应用范围也更加的广泛,人机交互的方式也更加符合人与人之间的交互方式,如人脸识别、可对话的智能音箱等。这些交互方式大大减少了人体操作机器相关指令的操作,使人体能够更加自然的与机器进行交互,大大提升了人类使用机器时的舒适性。人机交互技术在可
近年来,得益于4G技术的普及、5G通讯技术日趋成熟以及移动智能设备的完善,视频数据与日俱增。如何从海量视频数据库中快速检索到用户感兴趣的视频已经成为信息化时代的一个有意义的课题。传统的基于文本关键字的视频检索方法难以满足用户日益增长的需求,因此,基于内容的视频检索方法应运而生。本文对基于内容的视频检索的关键技术进行了深入研究,主要包括关键帧提取、特征提取与表示。在关键帧提取方面,现有的算法存在以下
软件定义网络是一种新兴的网络技术,它能够消除传统分布式网络架构的弊端。然而,在这种新兴的架构中,网络安全问题进一步增多,流表溢出攻击是其中一个非常严重的问题。由于这种攻击与传统的分布式拒绝服务攻击有着不同的特征,目前主流的检测系统对这种攻击没有很好的监测效果。本文在分析了现有的流表溢出攻击缓解方案的基础上,研究在检测精度、响应速度和资源消耗量等方面表现更好的方法。主要工作如下:首先,提出了一种基于
近年来,我国正在积极建设综合高效的智能运输基础设施。隧道作为重要的交通设施之一,在其长期使用期间,隧道衬砌会不可避免地出现各结构病害,会危害到隧道的安全运营。因此隧道衬砌结构病害高效的识别与分类,有利于保证隧道运营安全,有一定的工程应用价值和显著的社会经济效益。探地雷达(Ground-penetrating Radar,GPR)是目前广泛使用的隧道衬砌结构病害检测工具。但目前对于GPR数据的解释主
近来,全球经济快速增长,能源的消耗日益上升。建筑物的传统温控方案,造成了一定的能源浪费,并且存在忽略人体冷热感受的情形(例如在空调开启的情况下感到很冷或者很热)。构建实时的非接触式人体热舒适检测则能够有效缓解以上的情况,实现“以人为本”智能建筑。而目前的非接触式热舒适检测主要使用红外等设备,由于其价格昂贵,安装不便等原因,其并不能很好的应用于智能建筑的热舒适环境。同时,现有的一些使用图像捕捉等设备
聚类(Clustering)是一种用于探索数据结构的数据分析技术,它能够根据数据特征进行分类,将具有相同或相似性质的数据划入同一个子组(簇),不在同一簇中的数据通常其性质是不同的。聚类分析是基于特征的基础上找到样本的子组,或是在基于样本的情况下找到特征的子组。在聚类分析中引入差分隐私技术是当前研究领域绕不开的热点。差分隐私是一种数据失真技术,能够抵御任何背景知识下的攻击,且不受数据集大小的限制。在
目前大数据和人工智能与我们的日常生活的联系日益密切,商标必须经过有关部门审批通过才能得到法律的保护,随着经济的发展,商标注册数量剧增,在申请和审批时,为了避免申请的商标和已有商标相似,需对已有商标进行检索,但传统手工检索商标速度慢,存在漏检等弊端,所以本文对商标自动检索系统进行了研究。本文设计了一个自动商标检索系统,该系统由图像预处理模块、BOF模型制作模块和分类器模块构成。商标检索涉及的商标原始
随着移动智能设备技术的推广,人们对于位置服务(Location Based Services,LBS)的需求变得越来越普遍,与此同时,人们对位置服务的准确性有了更高的要求。虽然传统的定位系统可以很好的应用于空旷、遮挡情况不严重的室外环境,但在遮挡严重且定位精度需求更高的室内环境中表现不佳。由于室内工作与生活的需要,在不久的将来,室内位置服务需求必然会是一个巨大的流量入口。在室内环境中,GPS信号难