论文部分内容阅读
随着互联网的迅速发展和普及,网络上涌现出了大量表达观点和情感的用户评论文本。仅靠人工的方法处理和分析这些文本包含的情感信息费时费力。因此,迫切需要相关的技术快速进行自动处理和分析,文本情感分析由此产生并且快速发展,在商业决策、观点搜索、信息预测和情绪管理等领域得到广泛应用。本文主要研究情感分析中的中文情感分类子任务,旨在自动地判断文本情感极性。基于机器学习的方法是目前情感分类的主流方法之一,该方法需要使用大量标注好的语料来训练分类模型,然而,人工标注大量数据代价高昂且容易出错。因此,在减少标注语料的同时,如何保证分类模型的性能极具研究价值。并且,粗粒度情感分类任务无法获取评论文本包含的不同主题及其对应的情感倾向。针对上述问题,本文主要研究工作及创新点如下:(1)针对获取大量标注语料存在标注代价高昂且易出错问题,本文在基于机器学习的情感分类基础上,引入主动学习,结合基于委员会查询的主动学习方法,提出基于委员会查询的情感分析方法(Sentiment Analysis based on Query by Committee,SAQBC)。通过样本选择策略选择部分高分类信息的未标注样本进行标注,并结合机器学习分类模型对这些已标注样本进行迭代训练来达到降低样本标注量的目的。(2)针对粗粒度情感分类任务无法获取评论文本包含的不同主题及其对应的情感倾向问题,本文在SAQBC方法的基础上,引入LDA模型,提出基于主题模型和主动学习的情感分析方法(Sentiment Analysis based on Topic Model and Active Learning,SATMAL)。首先通过LDA模型获取评论文本中隐藏的主题信息,然后通过SAQBC对其进行情感极性预测,最终获得不同主题及其对应情感倾向。(3)本文在酒店评论数据集上进行实验来验证SAQBC和SATMAL方法的有效性,将SAQBC与其它常用基于机器学习的情感分类模型进行对比,实验结果表明,在数据集规模减少一半以上的情况下,SAQBC性能依然保持最佳,准确率比最好的对比方法还要高1.45%。同时,实验验证SATMAL方法在实际应用中可以挖掘出评论文本潜在的主题信息及对应的情感倾向。