基于聚类和监督学习模型的协同过滤推荐算法研究

来源 :广东工业大学 | 被引量 : 1次 | 上传用户:CHEUNGKWOKKUNG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
快速发展的互联网逐渐成为信息传递和商品交易的重要平台,成为大多数人生活中不可缺少的一部分。然而,互联网信息的快速膨胀,给用户带来丰富多样的信息同时,也对用户搜索信息的能力和精力提出了挑战。推荐系统作为一种信息过滤的重要途径,已经在互联网各个领域中得到广泛的应用。协同过滤算法是在推荐系统中应用最成功的推荐技术之一,在理论和实践上都取得长足的发展。然而,随着推荐系统中用户和项目的剧增,传统基于内存的协同过滤算法由于对计算资源的开销过大而面临可扩展性问题。如何把计算资源开销控制在可接受的范围内并保证推荐的效率和质量是目前业界研究的热点问题。针对可扩展性问题,本文在协同过滤推荐中引入聚类技术和监督学习技术,并提出三种协同过滤推荐算法。主要工作分为以下三部分:传统基于内存的协同过滤算法利用用户-项目评分矩阵的一行(列)表示一个用户(项目),在用户和项目数以百万计的推荐系统中,维数过高的用户和项目向量导致推荐效率的下降。本文针对用户和项目降维,分别提出DRU和DRI算法。DRU(DRI)通过二分k-means聚类技术对用户(项目)进行聚类,并计算用户(项目)对用户簇(项目簇)的隶属度,每个用户(项目)由其对应的隶属度向量表示。由于隶属度向量的维数通常远低于评分向量,因此基于内存的协同过滤算法的用户或项目间相似度的计算量大幅减少,由此提高了在线推荐的效率。此外,本文还提出DRUI算法,用于集成DRU和DRI的预测结果。实验结果表明,提出的算法在线推荐效率远高于传统基于内存的协同过滤算法(UCF和ICF);此外,尽管在评分预测准确度上DRU和DRI比UCF和ICF逊色,但是经过DRUI模型的集成后比它们更优越。传统基于内存的协同过滤算法预测评分时需要搜索目标用户(或项目)的最临近用户(或项目),在用户和项目的规模不断扩大的情况下,这种推荐算法的在线推荐效率面临挑战。于是本文引入可以离线训练的随机森林模型,提出CRF算法。CRF先通过聚类得到用户和项目的隶属度向量(此过程与DRU和DRI一样),然后结合用户-项目评分矩阵构造监督学习模型的训练数据集,并训练随机森林模型,在线推荐时利用离线训练的模型进行评分预测。实验结果表明,CRF在线推荐效率远高于基于内存的协同过滤算法;另外,其评分预测准确度和分类准确度在大部分情况下较优越。针对可扩展性问题,本文引入可增量学习的神经网络模型,提出CFBP_R回归模型、CFBP_C分类模型和CFBP_SW权重共享模型。CFBP_R和CFBP_C模型分别将评分预测问题视为回归问题和分类问题;CFBP_SW是一个基于CFBP_C改进得到的模型,引入权重共享机制,大幅减少模型的参数量。模型每个输入样本的结构为(用户ID,项目ID,评分)三元组,这是推荐系统评分数据最常见的存储格式,即在应用CFBP_R、CFBP_C和CFBP_SW前几乎不需要对原始评分数据做任何预处理(比如转换成评分矩阵);训练模型时可以分批读取磁盘中的数据,因此模型对内存的要求较低,新增的评分数据也可以增量优化模型参数,而不必重新训练模型。此外,针对需要对评分进行编码处理的分类模型CFBP_C,本文一方面应用常用的one-hot编码,另一方面针对评分预测问题的特点提出一种新的编码(线性编码),于是得到模型的两个版本CFBP_C(one-hot)和CFBP_C(linear)。实验结果表明,提出的算法在评分预测准确度、分类准确度和在线推荐效率上均比传统基于内存的协同过滤算法(UCF和ICF)优越;提出的算法对数据稀疏性的敏感程度较低,能够一定程度上缓解数据稀疏性问题;提出的线性编码方式能够明显提高评分预测准确度;权重共享模型CFBP_SW在参数量远比CFBP_C小的情况下,评分预测准确度与之相当。
其他文献
作为高中数学教师,用高等数学的思想、观点和方法来指导中学数学教学实践,沟通高等数学与初等数学的内在联系,指导学生进行研究性学习,培养学生的探究精神与创新能力,将是新形势下
项目承担单位:交通部公路科学研究院项目编号:200431822333-03项目主要负责人:吴京梅项目参与人:刘兴旺杨曼娟张建军陈瑜主要研究成果和技术创新点:誗通过对国内部分避险车道
小学阶段是学生学习基础的语文知识、培养基本的语文阅读能力的主要阶段,加强小学生阅读能力的培养对于学生阅读习惯的养成和阅读兴趣的培养都至关重要。本文在探讨当前小学
黄河湿地是我国重要的湿地类型,也是生物多样性最为丰富的区域。由世界渔业中心(The Word Fish Center)与中国水产科学研究院共同组成的“中国黄河流域湿地水生生物资源价值评估
移动互联网和大数据技术的迅猛发展使信息过载现象不断加剧,为了提高用户从海量数据中获取信息的效率以及企业的生产效益,推荐算法在不同应用场景下得到广泛应用。协同过滤算
新闻舆论监督作为社会监督机制的一个有机组成部分,不仅是其他任何监督机制所无法替代的,而且在积极干预现实生活、维护社会有序运行方面发挥着越来越重要的独特作用。然而,
大革命前期,李维汉为首的湘区委在湖南实现了国共合作,建立了革命统一战线;大革命后期,李维汉等同唐生智为首的国民党实力派进行政治协商,使得工农运动得到迅猛的发展.由于共
矿业三维GIS是地质矿业信息化的研究重点和热点,是科学计算可视化在地质上的应用,它涵盖地质体的三维可视化、体空间插值等领域。矿业三维GIS软件一般包括空间数据库的建立、三
植物根系是一个重要的农艺性状,植物形成理想根系的能力对于植物适应环境胁迫和生存具有极其重要的意义。植物根系的形态结构事实上是一个“感知系统”。面对各种各样的生物因
智慧城市建设顺应了时代发展要求和我国城市发展方向,而其中对智慧城市评估问题则是智慧城市建设的重要组成部分,其:一方面,实现对智慧城市建设的引导和监督;另一方面,也利于