朴素贝叶斯分类的研究及应用

来源 :重庆大学 | 被引量 : 0次 | 上传用户:wagegea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要研究的是朴素贝叶斯文本分类方法,通过属性选择以及属性加权,不断调整模型中属性的权值,对传统的朴素贝叶斯方法进行改进。研究度量属性之间相关性的不同方法,选用随机森林对属性进行选择,确定最终的属性子集。随后进行主题数量确定,因为评论的类别事前是不知道的,本文通过LDA主题模型,使用最大似然函数估计确定类别的最佳个数。然后进行属性加权,由于每一个属性对于各类别的影响是不一样的,因此也会针对不同类别的各个属性赋予一个权值。本文分别采用TF-IDF值和DC-TF-IDF值对属性进行加权,通过对比模型的微平均1-评测值发现,无论是影评数据还是天猫的评论数据,TF-IDF加权朴素贝叶斯分类器都比DC-TF-IDF加权朴素贝叶斯分类器的微平均1-评测值低一个百分点,所以最后选择DC-TF-IDF加权朴素贝叶斯分类器,对影评数据和天猫某女装评论数据进行分类预测,同时计算影评各类别的评分和综合评分。通过这种分类方法,对评论内容进行合理分类,提供更方便和清晰的评论内容给广大消费者,方便大家浏览和参考。
其他文献
将主动悬架应用于电动汽车,对主动悬架控制策略进行仿真研究。首先,建立1/2车辆主动悬架数学模型;其次,基于MATLAB/Simulink仿真软件,利用模糊控制理论,搭建主动悬架仿真模型
营商环境优劣与经济发展快慢存在着正相关系,东北近年经济发展不景气,一些投资撤离,很重要的原因就是东北的营商环境不够完善。针对东北营商环境存在的问题,四个方面即政务环
从手持/便携式角度出发,采用双光纤光路设计了激光拉曼测试装置中的探头,并确定关键器件性能、型号及尺寸.利用Zemax软件进行光学模拟仿真,得到入射光路的工作焦距为13.5mm,
中职学生是一个相对特殊的群体,大部分学生不能很好地认清学习的重要性和价值,比较缺乏学习积极性和主动性,部分学生情绪较为低落,存在心理问题等等。经相关研究文献的查阅发现,中职学生的成长环境特别是家庭教养方式对其幸福感有一定的影响,而幸福感的获得又与自我效能感关系密切,自我效能感能在一定程度上影响着学生的主观幸福感。面对中职学生生活、学习现状,进行家庭教养方式、自我效能感、幸福感及其之间关系的实证研究
引产是指在分娩自然发动之前,采取一系列措施人为地诱发子宫收缩,促使宫颈管扩张,最终使胎儿顺利娩出,解除或缓解母亲严重并发症的发生,使胎儿脱离不良宫内环境以降低围生儿
汽车产业是我国的支柱性产业,体现了我国的综合国力,汽车技术水平是衡量汽车产业发展质量的重要指标。为了提升我国汽车技术水平,加快汽车产业高质量发展,2017年9月,工信部发
盈余管理是指企业上层按照企业会计整体发展规划,查看企业对外报告中有关会计事项的具体内容,然后对其做出部分改动,使企业获得更多的利润。很多上市公司对会计估计做出改动,
目的:分析总结输血过程前后的常见问题及护理对策。方法:选取394例输血患者为研究对象,分析其一般资料,输血前、输血中、输血后的护理措施,发放护理满意度调查问卷,调查护理
本文通过比较欧洲评估准则、澳大利亚和新西兰评估准则中有关绿色评估的部分内容以及国内外绿色评级工具,分析绿色评估准则整体框架与基本内容的异同点,对我国的绿色评估准则
种植体相关感染和无菌性松动已经成为种植失败最主要的原因。因而,通过表面改性或涂层技术使种植体表面兼具抗菌和成骨性能,已成为提高手术成功率的关键。本文将结合抗菌和成