基于电商在线评论的文本情感倾向性分析

来源 :重庆理工大学 | 被引量 : 0次 | 上传用户:qdled2046
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和移动支付的快速发展,网上购物成为人们生活中不可或缺的一部分,随着商品销量不断增长,同时增长的还有消费者评论。消费者在商品评论系统中留下自己的体验与感受,成为商家了解消费者,消费者了解其他消费者的重要窗口,评论数据分析因此具有非常重要的现实意义。目前关于文本情感倾向性分析的研究大多数基于有标签的数据,基于无标签文本数据的研究较少。本文基于挖掘的电商用户评论数据分别研究了有标签数据和无标签数据的情感倾向性分析方法,并继续对这两类文本做了评论特征分析,研究具有重要的理论和实际意义。本文以京东商城的婴儿奶嘴评论文本数据为研究对象,利用Python分别爬取了有标签的奶嘴评论数据和无标签的奶嘴综合评论数据作为分析语料,对数据进行清洗、分词、去停用词等预处理操作后对文本的情感倾向做了分类。对有标签的数据,本文先采用构建情感词典的方法对其进行情感分类,获得了对应的分类效果,然后运用了三种文本特征提取方法—TF-IDF,Word2vec以及TF-IDF加权的Word2vec训练特征向量,并将三种方法获得的特征向量划分训练集和测试集用以训练随机森林、支持向量机和逻辑回归三种机器学习分类器,按照查准率、召回率、F1值三个指标对几种分类方法的效果做了对比分析,根据实验结果得到最优的特征提取方法和分类器的组合为TF-IDF加权的Word2vec与支持向量机。对无标签的数据,本文基于有标签的婴儿奶嘴数据构建好的词典和分类器给出了情感倾向标签预测,并介绍了如何确定其情感倾向的方法,为无标签数据的情感倾向性研究提供了思路。然后通过可视化技术继续对有标签的婴儿奶嘴评论数据的总体特征做了呈现,并根据评论数据的正面评价和负面评价分别建立LDA主题模型,进一步挖掘出商品的优势和劣势以及消费者在给出正面评价和负面评价时最关注的商品特征,结论是消费者对婴儿奶嘴的材质、外观、质量、清洗难度和使用等方面给予了肯定,但对商品的外包装、物流、服务以及是否正品方面给予了否定。对无标签的评论数据,仍利用LDA方法对其进行主题聚类得到五类聚类结果并分析。最后根据总体的文本特征分析结果,为销售商家和消费者分别提出了可行性建议。
其他文献
格林巴利综合征属中医“痿证”范畴,肺脾肾亏虚、渐及五脏是发病之本,热、湿、痰、瘀、毒为致病之标。马云枝教授临证根据疾病不同阶段分期论治,主张早期治疗应清补兼得,邪正兼顾,重在清肺中燥热之邪,多以清燥救肺汤或清燥汤为主方加减;中期顾护脾胃,标本兼治,常选用补中益气汤或参苓白术散为主方加减;晚期重在滋补肝肾,辨证施药,随症化裁,调护五脏,以肝肾亏虚为主者,方选独活寄生汤加减;阴阳两虚、元气衰败者,方选
目的:建立糖尿病-糖尿病肾病患者数据集,基于机器学习算法,建立糖尿病肾病风险预测模型,从2型糖尿病患者中筛选出糖尿病肾病患者,辅助进行糖尿病肾病诊断。方法:收集医院内分泌科2型糖尿病患者和糖尿病肾病患者数据,建立糖尿病-糖尿病肾病患者数据集;基于Logistic回归方法进行特征筛选,选取疾病影响因素;使用K近邻、逻辑回归、决策树等8种算法建立风险预测模型,并对预测模型进行评价比较。结果:筛选出糖尿
报纸
创业生态系统正成为创业前沿理论框架,然而现有研究更多停留在系统宏中观层面,系统不同层面之间的交叉融合研究匮乏,这容易造成新创企业的行为与系统发展方向之间的相互背离。处于不同系统生态位的新创企业只有融入周围所属创业生态系统,才能使自身与系统成为一个整体,从而获得系统福利,这也符合共同利益原则。但是,从企业与系统相互融合视角展开的研究却较为少见。于是,本研究强调新创企业需要采取与系统“互融、同构”的战
茶在我国种植面积广,并且是重要的创汇作物。茶树害虫是危害茶园生产的主要因素之一,每年给我国的茶园等相关产业链造成相当严重的损失,为了确保提升茶叶生产的质量,及时监测茶树害虫并采取正确的处理方式十分重要。由于茶树害虫在生长周期中形态变化较大,且茶园管理者缺乏茶树害虫识别、防治措施等相关的经验,从而导致不能准确的把握时机对症下药,防治害虫效果不理想、过量使用农药等现象,直接降低了茶园生产茶叶的卫生标准
目的 了解我国近10年冠心病患者便秘护理的研究现状及热点。方法 分别在中国知网、维普、万方、中国生物医学网数据库中检索冠心病患者便秘护理相关文章,检索日期设置为2013年1月1日至2022年7月1日。采用书目共现分析系统(BICOMB 2.02)生成词篇矩阵,SPSS 26.0软件生成树状图,g-CLUTO软件生成可视化山丘图。结果 共纳入249篇文献,获得40个高频关键词,归纳出4个研究热点,包
目的开发基于机器学习算法的中老年门诊2型糖尿病患者低血糖风险预测模型并验证其预测效果,同时与传统Logistic回归方法建模进行性能差异比较确定最优模型,以帮助临床医护人员早期识别低血糖高危人群并制定针对性干预措施。方法选取2020年7月—2022年2月在上海市某综合医院门诊随访的中老年2型糖尿病患者867例,将其分为为建模组(578例)、验证组(289例)。应用3种机器学习算法与传统Logist
互联网的普及和网民规模的不断壮大,支撑了我国电子商务的巨大发展,在线购物深受消费者喜爱。随着社交媒体的发展,电子商务也逐渐形成了社会商务的新发展模式,用户在线评论也促进了电子商务发展。海量的评论文本中蕴含了丰富的信息,这些信息为消费者决策、商家改进产品、选择营销策略和升级用户体验提供帮助,充分挖掘在线评论信息有助于产生巨大的经济价值,也为企业品牌的管理者提供决策支持和管理启示。面对海量的在线评论文
本文使用理论与现实应用相结合的方法,结合PSR模型、公共管理理论、委托代理理论,解构国家审计赋能“双碳”目标实现的逻辑意蕴;以三种机制和三种类型审计功能的发挥探讨赋能的作用机理。研究发现:国家审计能以其监督、鉴证和评价功能契合我国低碳治理需求,并且通过低碳财税资金审计、低碳政策落实跟踪审计和碳市场审计实现预防低碳资金滥用、揭示低碳政策落实情况、抵御碳交易市场风险,全方位为“双碳”目标实现赋能。
<正>很多人第一次知道冯绍峰的名字是通过电视剧《宫》,"八阿哥"这一角色让他红遍大江南北。然而与电视剧中鲜衣怒马的柔情男神截然不同的是,冯绍峰的大银幕形象往往多了一份野性、一种粗犷,凌厉霸气的项羽、冷面傲娇的尉迟真金、孑然落拓的马浩汉、血性暴躁的萧军以及热血鲁莽的陈阵等等。在十年沉寂、一夜爆红、绯闻缠身之后,冯绍峰或许终于迎来了事业的巅峰期。
会议