基于主动学习的情感分析方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:dcqnj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展和普及,网络上涌现出了大量表达观点和情感的用户评论文本。仅靠人工的方法处理和分析这些文本包含的情感信息费时费力。因此,迫切需要相关的技术快速进行自动处理和分析,文本情感分析由此产生并且快速发展,在商业决策、观点搜索、信息预测和情绪管理等领域得到广泛应用。本文主要研究情感分析中的中文情感分类子任务,旨在自动地判断文本情感极性。基于机器学习的方法是目前情感分类的主流方法之一,该方法需要使用大量标注好的语料来训练分类模型,然而,人工标注大量数据代价高昂且容易出错。因此,在减少标注语料的同时,如何保证分类模型的性能极具研究价值。并且,粗粒度情感分类任务无法获取评论文本包含的不同主题及其对应的情感倾向。针对上述问题,本文主要研究工作及创新点如下:(1)针对获取大量标注语料存在标注代价高昂且易出错问题,本文在基于机器学习的情感分类基础上,引入主动学习,结合基于委员会查询的主动学习方法,提出基于委员会查询的情感分析方法(Sentiment Analysis based on Query by Committee,SAQBC)。通过样本选择策略选择部分高分类信息的未标注样本进行标注,并结合机器学习分类模型对这些已标注样本进行迭代训练来达到降低样本标注量的目的。(2)针对粗粒度情感分类任务无法获取评论文本包含的不同主题及其对应的情感倾向问题,本文在SAQBC方法的基础上,引入LDA模型,提出基于主题模型和主动学习的情感分析方法(Sentiment Analysis based on Topic Model and Active Learning,SATMAL)。首先通过LDA模型获取评论文本中隐藏的主题信息,然后通过SAQBC对其进行情感极性预测,最终获得不同主题及其对应情感倾向。(3)本文在酒店评论数据集上进行实验来验证SAQBC和SATMAL方法的有效性,将SAQBC与其它常用基于机器学习的情感分类模型进行对比,实验结果表明,在数据集规模减少一半以上的情况下,SAQBC性能依然保持最佳,准确率比最好的对比方法还要高1.45%。同时,实验验证SATMAL方法在实际应用中可以挖掘出评论文本潜在的主题信息及对应的情感倾向。
其他文献
随着科技信息技术的不断进步,三维模型数量呈指数级增长,在工业生产和日常生活中发挥着重要作用。如何对模型进行分类管理成为学术界、工业界普遍关注及研究的问题。而计算机
二维过渡金属硫族化物具有直接带隙、较强的光与物质相互作用、较高的载流子迁移率、较大的激子结合能等优点,在光电领域具有广泛的应用范围;同时它们还具有优异的机械性能,
潜在的金融风险可能会触发金融危机,其后果将对金融系统是灾难性的。纵观历史,发生了多次大型的金融危机冲击经济社会的事件,整个社会的各个角落都受到了严重影响。在全球化
随着信息化的发展,大数据时代的来临,全球信息数据量的迅猛增长成为大数据产业发展的基础。市场调研机构IDC预计,未来全球数据总量将会一直维持在一个较高的水平,而我国作为
关联数据流的日益普及推动了RDF(Resource Description Framework)流处理引擎的发展。其中,CQELS(Continuous Query Evaluation over Linked Stream)引擎是一个“白盒”系统,
对一个稳定光场的空间分布进行完整的描述,需要用到强度和相位两个物理参数。传统光学成像技术一般仅利用光的强度信息对样品进行观察和测量,对于透明或者近似透明样品,所获
伴随着工业的急速发展,深度学习由原来无人问津到应用十分的广泛,其中目标检测研究方向是深度学习中比较重要的一部分,而且发展十分迅速,被业界越来越重视。由于检测环境越来
本文主要利用研究强极限的一种新方法来推广非齐次马氏链泛函的广义强偏差定理和熵定理,任意信源关于非齐次马氏信源广义相对熵的下界估计,树指标齐次马氏链相对熵的估计.研
丹参(Salvia miltiorrhiza Bunge)是唇形科鼠尾草属植物,其药用部位根和根茎中含有多种活性成分,被广泛应用于心血管类疾病的治疗。丹参具有外源基因转化体系成熟、基因组小
本文利用拉格朗日气流轨迹模式HYSPLIT对华南前汛期的水汽输送过程进行后向追踪模拟,结合“海量气块追踪法”研究华南前汛期水汽输送路径,确定影响其水汽输送的关键区,并利用