基于多种个性化信息的推荐技术研究

被引量 : 3次 | 上传用户:liongliong555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,网络购物,网络音乐和视频,网络交友等出现在了大多数人的生活中。人们习惯了网上听音乐,购物,习惯了看好友推荐给自己的视频,习惯了买完东西后及时给一个评价,或者为自己喜欢的电影贴个标签。人们丰富多彩的网络生活在互联网上留下了很多个性化信息。目前,推荐系统领域正面临着数据稀疏和冷启动问题,且传统的推荐方法很难满足用户越来越多的个性化需求,因此很多学者尝试将用户在网络上留下的多种个性化信息集成到推荐方法中,从额外的信息中学习用户的兴趣,从而为用户提供更好的推荐。目前,比较常用的信息有用户的社会网络信息,用户为物品贴的标签信息,用户和其他用户之间的信任关系,用户的地理位置信息等。但是,经过调查研究发现,大多数研究者仅仅利用了一种附加信息,即有的只研究基于社会网络信息的推荐,有的仅仅研究基于标签的推荐,有的只研究基于地理位置的推荐。不得不说,每一种研究都为后来人提供了很多宝贵的经验和财富,让后来人更加了解每种信息对于推荐的影响和效果。可是,从另一角度理解,如果每种单个信息都能很好的辅助推荐,那么同时利用多种信息应该可以得到更加精确的推荐,更有助于缓解推荐系统面临的数据稀疏和冷启动问题。基于这样的想法,本文进行了两次实验,分别在不同的推荐方法中尝试集成多种信息,验证同时利用多种信息是否比只利用一种信息更加有助于提升推荐效果。文章首先在基于用户的协同过滤方法(user-based collaborative filtering, cf_user)中逐步集成用户的社会网络朋友关系和标签信息,分别形成了只利用用户朋友关系的sn_rating (collaborative filtering based on social network)算法,只利用标签信息的cf_tag(collaborative filtering based on tags)算法,以及同时利用这两种信息的cf_snjag(collaborative filtering based on social network and tags)算法。Sn_rating算法不同于cf_user方法,它直接将用户的朋友关系当做用户兴趣相似的好友,而不是像cf_user算法中那样,利用评分计算相似好友。Cf_tag算法利用TFIDF(term frequency inverted document frequency)方法为用户和物品建立标签向量,并依据标签向量计算用户对物品的偏好程度。Cf_sn_tag算法则先利用朋友关系和评分数据来计算用户的相似好友,并进一步用朋友关系为冷启动用户拓展标签,然后利用标签向量计算目标用户对物品的偏好。在第一个实验基础上,文章在矩阵分解推荐方法上进行了进一步实验,并提出了基于标签和类别信息加权的矩阵分解推荐方法MF_genre_tag_weight (matrix factorization based on the weight of genres and tags)。该算法同时考虑了用户正则项和物品正则项。算法不直接利用用户的社会网络朋友关系,而是利用标签信息和物品类别信息计算用户的相似好友,这些好友不局限于用户的社会网络朋友。同时,算法利用LSI(latent semantic indexing)算法识别标签数据的同义词和一词多义情况。梯度下降方法被用来求解矩阵分解的最终局部最优解。本文在多个真实数据集上,采用多种评价指标对上述两次实验进行了验证。采用的数据集分别是Movielens, last.fm以及从豆瓣网上爬取的Douban数据集。数据集中主要包含用户对物品的评分信息,用户的社会网络信息,用户为物品贴的标签信息,物品的类别信息。实验采用的评价指标主要有分类准确度,预测准确度。由于第一个实验采用Top-N推荐,因此主要采用分类准确度,即准确率,召回率,f1值,以及Discounted Cumulative Gain (DCG)。第二个实验采用评分预测,采用的是MAE和RMSE两个指标。实验中将本文的算法和其他算法进行了比较,实验结果表明,同时集成多种信息确实有助于提升推荐效果。具体的,标签信息容易得到更准确的推荐,社会网络信息也能反映出用户的真实兴趣。用户感兴趣的物品的类别信息能很好的界定出用户的兴趣范围。
其他文献
<正>小儿厌食症是指非疾病因素而出现较长时期的见食不贪、食欲不振、甚则拒食的一种病证。本病长期不愈,会对儿童生长发育产生严重的影响。近年来,笔者采用肥儿合剂治疗脾胃
汽轮发电机组通流部渐发故障是汽轮机组重要的故障模式。故障一旦出现不仅影响机组的安全性,同时会严重影响机组的经济性,造成能源浪费和经济损失。因此,对汽轮发电机组进行
为了合理利用低品位能源,对压缩式热泵与吸收式热泵的热泵性能系数、一次能源利用率进行了分析比较,结果表明,压缩式热泵的性能系数PCO和能耗成本都比吸收式热泵大,得出了两
我国的基础教育已进入了核心素养时代,教育部在核心素养的基础上凝练了学科核心素养的概念,本文根据《中国学生发展核心素养》,结合学科特点,尝试总结了戏剧学科核心素养的内
目的:了解哮喘病人使用吸入剂治疗依从性现状及影响因素,以期提供更好的治疗及用药指导。方法:采用问卷调查方法,对114例住院哮喘病人进行调查,总结其用药依从性及影响因素。结
同声传译中预测(anticipation)现象研究非常广泛,并且逐步被作为一种策略进行推广。诸多口译研究者对其进行了现象描述、存在证明、类别划分、意义评价、模型应用,但鲜见对该策略
汉语拥有极其丰富的成语。汉语成语是汉语词汇的精华部分。成语是一种喜闻乐见的语言表达形式,因其风格典雅、意蕴深厚,被广泛运用于书面语之中;因其言简意赅、极富表现力,被丰富
安全防护管理对保证井下工作人员的安全具有重要意义。在分析安全防护管理理论及作用的基础上,对山西A矿安全防护管理面临的问题进行了分析,并从强化安全防护管理认识、提高
马尔克斯是二十世纪拉丁美洲乃至世界文学界的领军人物,是拉美魔幻现实主义的翘楚。在1980年以后,马尔克斯的作品被大量译介到中国。随之,中国学者展开了对马尔克斯作品的研
中等职业学校体育是学校体育和社会体育的衔接点,是培养学生体育兴趣的重要时期。这个阶段是学生从学校走向社会的转折点,起到一个重要的链接纽带作用,对于形成终身体育教育具有