论文部分内容阅读
随着互联网行业的快速发展,互联网成为人类生活与发展必不可少的工具。在工作和生活上,互联网都不断改变着人们的生活方式,为人们提供了更加便捷、舒适的服务。但是随着互联网的蓬勃发展,越来越多的问题也开始涌现出来。其中,信息过载问题是伴随互联网发展的新问题。互联网的蓬勃发展造就了如今丰富多彩、快捷便利的生活环境。但是,也正是因为信息的爆炸性增长,给人们带来了不知如何甄别过滤信息的苦恼。如何对庞大、复杂、无序的信息进行筛选和过滤,并将用户最感兴趣的信息或物品推荐给用户,成为了信息爆炸时代的一个重大挑战。传统的搜索引擎虽然在一定程度上可以解决信息筛选的问题,但它只能对用户的显式需求进行匹配,只能对用户提供无差别的信息搜索服务,无法挖掘用户的潜在兴趣和爱好并提供个性化的信息推荐。因此在大数据的时代背景下,在个性化信息的需求下,推荐系统应运而生。与此同时,近年来,社交网络和音视频服务提供商在互联网上的发展速度惊人,Facebook、Twitter、新浪微博、Netflix、Youtube等应用已经成为许多人生活和娱乐的一个重要组成部分。人们在浏览微博,与好友互、观看电影的同时留下了许多用户行为记录。这些信息极大的促进了推荐系统算法的研究,推荐算法的研究成果在相关应用上的改进也极大的提高了用户的体验。本文针对推荐系统中的一些关键问题并结合具体数据进行研究,主要包括:对于SVD++模型如何选取合适的隐式反馈信息;针对推荐系统本身可以理解为top-N问的题特性如何设计合理的排序模型等等。在综述推荐算法最主流模型的基础之上,本文主要取得一下几方面的研究成果:(1)目前,在推荐系统领域SVD++模型是单模型中精度最高的算法之一。本文结合经典的算法原理和具体数据的特征及含义,对模型做了合理的设计和实现。在隐式反馈信息的选取上,做了合理的选择,使得模型达到了比较理想的效果。本文将该SVD++模型作为最终模型的一个基础模型之一。(2)推荐系统中更关心的是用户可能接受的推荐,而对具体的用户评分预测则可以做一定程度的妥协,尤其是对用户没有接受的物品的评分。所以,推荐系统在一定程度上可以理解为一个top-N应用,而推荐算法则可以理解为一个Learning to Rank (LTR)问题。针对这一问题,本文结合具体数据以及LTR中最常用的两个主要方法PairWise和ListWise方法,设计了一个梯度PairWise模型,该模型在一定程度上中和PairWise方法和ListWise方法的优势,并使得其在具体数据中得以应用。(3)集成学习作为机器学习的一个分支,在各种应用中越来越火热。本文在对比了主流集成学习思想的基础上,选择了使用二次学习的方法进行模型融合。最终使用Logistic Regression (LR,逻辑回归)融合单模型中算法精度最高SVD++模型和梯度PairWise模型,并取得了很好的效果。