论文部分内容阅读
随着互联网应用的不断普及,越来越多的用户将自己对某个产品或事件的评价信息发布到互联网上。这些信息具有非常重要的价值,它们既可以为政府制定决策服务也可以为广大商家和消费者提供指导信息。但这同时导致了互联网上的数据以一个指数级的速度在增长,如果仅仅通过人工的方法来获得有价值的产品评论信息将是一个既费时又费力的工作,因此如何通过计算机的方法自动获得有用的信息变得非常重要。目前观点挖掘主要从三个粒度进行分析:文本级,句子级和特征级。文本级观点挖掘是假设每一个文本只针对一个事物进行描述;句子级观点挖掘包含两个内容,一是识别主观句与客观句,二是句子的倾向性分析,同样也假设句子只包含一个观点;特征级观点挖掘的任务则包含三个方面的内容:1)识别和抽取文本中的实体特征,2)确定特征上观点的倾向性,3)提供基于特征的多角度观点总结。本文基于文本级与特征级之间,以实体为基本单位,旨在研究面向新浪博客中实体的观点挖掘。论文主要的研究工作及创新之处包含以下几个方面:第一、提出了一个实体一主题模型(Entity Topic Model, ETM),根据分布结果抽取实体及其对应的实体评价词群。ETM模型在传统LDA主题模型的基础上增加了实体信息,将实体表示为主题上的概率分布,主题为词语空间上的概率分布。其基本思想是根据作者撰写博客所评论的实体选择实体标签,再利用标签来指导文本中词语的生成过程。ETM模型会将与实体语义相关的评价词分配到同一个主题下以达到聚类的效果并能挖掘出实体、主题以及词语之间的潜在语义关系。第二、提出了一种利用互信息的方法来二次抽取实体相关评价词群的方法,互信息可以理解为评价两个变量之间相关性的一个指标,实体与其对应的实体特征评价词往往在同一个文本中同时出现,可以通过本方法将与实体不相关但是与实体评价词群中其它词语相关的词语剔除掉。第三、提出了一种基于词语释义的方法构建上下文无关的情感词典,同时利用关联规则抽取语料中固定搭配的词语组合,并判断词语组合的情感倾向性以构建上下文相关的情感词典。最后将实体评价词群以及情感词典进行综合分析以得到直观的面向实体的倾向性分析。