基于文本挖掘的个性化推荐系统研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:yxws
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的高速发展改变了人们的生活方式,网络为人们生活提供便捷,同时也需要对海量的信息进行筛选,推荐系统显得尤为重要,各种在线消费的网站中产生了大量的产品信息和评论信息。如果能够从海量的文字信息中获取有价值的内容,就可以极大地提升消费者的购物体验,促进商品成交率。本文利用基于内容的推荐思想,除产品本身的描述属性,主要利用评论文本,提出一种基于文本挖掘的推荐算法,提高了推荐的准确率。常用的一些推荐算法主要是聚类分析用户评分矩阵,获得目标用户的相似用户群体、或者依据用户历史打分行为推荐相似物品。可见这些算法过于依赖用户评分信息,所有用户打分衡量尺度并不一致,推荐并不准确。因此本文提出一种基于文本挖掘的个性化推荐算法,主要是采用基于内容推荐的算法思路,评论文本是用户观点的直接描述,以网站商品评论为物品特征描述语料,利用word2vec词向量模型进行评论文本情感分析,获得商品好评率,并筛选商品正向评论文本集,做为商品正向特征的描述文本集,并使用LDA主题模型对评论文本集进行降维,提取评论文本集主题特征,计算出物品评论集在各主题的分布矩阵,然而每个主题包含许多特征词语,仅使用主题粗粒度描述评论集使得推荐不够精准,采用词频特征选择算法选取主题下等粒度细分的关键词特征,使用主题分布、特征词权重、评论好评率共同做为商品描述,结合用户兴趣偏好,进行个性化推荐,除用户购买记录、用户评分、商品评论文本等信息外,当物品冷启动时可以利用物品固有属性的内容推荐解决冷启动问题,并随着评论数据的增加,逐步平滑过渡到基于文本挖掘的推荐算法。本文实验部分爬取豆瓣网电影评论作为实验数据进行实验分析,使用推荐准确率、召回率作为试验评价指标。首先实验将情感分析引入推荐系统前后算法的性能对比,并与传统基于内容的推荐方法、直接使用LDA主题推荐的算法相比较,本文提出的基于LDA主题扩展文本挖掘推荐方法进行了评论文本情感分析信息并扩展LDA主题模型,增加文本描述力,使得推荐效果更为准确。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
<正>新的传播方式和渠道的发展,让自媒体迎来高峰期,微博、微信公众号、搜狐公众号等各种"号"成为网民和企事业单位的展示平台。对具有宣传需求的企业来说,"企业新媒体"已经
信号的TOA估计精度是决定多点定位监视系统目标位置精度的关键因素之一。由于噪声的影响,传统的信号到达时间估计方法会带来较大的系统时间同步误差,从而影响所监视目标位置精
目的研究对ICU重症肺炎患者应用全面整体护理干预的临床效果,为临床护理工作提供依据。方法随机选取2018年3月-2019年3月来我院重症监护病房救治的患者70例,按照随机对照的原
在气举采油中 ,传统的套压控制气举阀的开启和关闭主要取决于注气压力 (套压 ) ,往往造成低产井举空和高压气体“打循环” ;而高产井则出现阀间干扰 ,造成多点注气 ,耗气量大
软式体育器材在田径教学中产生的作用不容忽视,主要是因为软式体育器材在田径教学中能够促进学生身心朝着健康的方向发展和进步。在此基础上,教师能够结合学生的身体实际状况
本文针对人们对于吃牛羊肉而保护猫狗这一事件,对认定其行为是一种道德伪善的判断进行反驳。这一行为不是伪善,而是道德关怀的范围由人到动物的扩展。基于道德关怀的扩展而考
采用MM5/CALMET模式模拟延安、西安和汉中2015年逐时大气稳定度和混合层厚度,并与国家标准推荐的帕斯奎尔方法计算结果进行对比。结果表明:采用MM5/CALMET模式模拟大气稳定度
通过对宿根甘蔗幼苗黄化病发生严重的蔗区的实地调查和采样分析,探讨了宿根甘蔗幼苗黄化发生的原因;并根据调查分析结果,进行了甘蔗黄化苗矫正的田间试验。研究结果表明:(1)