论文部分内容阅读
互联网的飞速发展极大方便了人们的学习、工作和生活,但同时也使我们面临着信息爆炸,却知识匮乏的窘迫。如何从海量信息中快速、准确的寻找所需要的信息,已经成为了人们的迫切需求。
意见挖掘技术可以自动获取网络中主观性文本的评价信息,对提高网络服务质量有重要的现实意义。本文主要针对意见挖掘领域中评价主题抽取及句子倾向性识别技术进行研究,在细颗粒度的层面上挖掘出评价事物的各个方面及其倾向性态度。所作的工作主要有以下几个方面:
第一、在评价主题抽取方面。首先利用一种启发式规则和共现概率统计的方法识别领域中的专业名词性短语。然后利用LDA主题稳定性算法获得领域文本的主题数量。最后将LDA模型应用在句子集合中抽取出各主题下的相关词群。而这些评价主题就代表了领域文本中所评价的某些方面。
第二、在句子倾向性识别方面。首先提出了一种多特征融合的句子倾向性识别方法,用来初步得到句子的倾向性标签。然后将倾向性标签作为先验知识引入到JST模型中,指导模型的参数估计过程。最后根据句子与倾向性标签的概率,识别出句子的倾向性。
第三、根据句中评价词语所属的主题及该句子的倾向性态度,可以统计出该领域某些主题的褒贬倾向性句子的数量,进而得到领域某些方面的意见挖掘结果。