论文部分内容阅读
互联网的高速发展改变了人们的生活方式,网络为人们生活提供便捷,同时也需要对海量的信息进行筛选,推荐系统显得尤为重要,各种在线消费的网站中产生了大量的产品信息和评论信息。如果能够从海量的文字信息中获取有价值的内容,就可以极大地提升消费者的购物体验,促进商品成交率。本文利用基于内容的推荐思想,除产品本身的描述属性,主要利用评论文本,提出一种基于文本挖掘的推荐算法,提高了推荐的准确率。常用的一些推荐算法主要是聚类分析用户评分矩阵,获得目标用户的相似用户群体、或者依据用户历史打分行为推荐相似物品。可见这些算法过于依赖用户评分信息,所有用户打分衡量尺度并不一致,推荐并不准确。因此本文提出一种基于文本挖掘的个性化推荐算法,主要是采用基于内容推荐的算法思路,评论文本是用户观点的直接描述,以网站商品评论为物品特征描述语料,利用word2vec词向量模型进行评论文本情感分析,获得商品好评率,并筛选商品正向评论文本集,做为商品正向特征的描述文本集,并使用LDA主题模型对评论文本集进行降维,提取评论文本集主题特征,计算出物品评论集在各主题的分布矩阵,然而每个主题包含许多特征词语,仅使用主题粗粒度描述评论集使得推荐不够精准,采用词频特征选择算法选取主题下等粒度细分的关键词特征,使用主题分布、特征词权重、评论好评率共同做为商品描述,结合用户兴趣偏好,进行个性化推荐,除用户购买记录、用户评分、商品评论文本等信息外,当物品冷启动时可以利用物品固有属性的内容推荐解决冷启动问题,并随着评论数据的增加,逐步平滑过渡到基于文本挖掘的推荐算法。本文实验部分爬取豆瓣网电影评论作为实验数据进行实验分析,使用推荐准确率、召回率作为试验评价指标。首先实验将情感分析引入推荐系统前后算法的性能对比,并与传统基于内容的推荐方法、直接使用LDA主题推荐的算法相比较,本文提出的基于LDA主题扩展文本挖掘推荐方法进行了评论文本情感分析信息并扩展LDA主题模型,增加文本描述力,使得推荐效果更为准确。