论文部分内容阅读
用户在互联网上的行为从过去的只是"接收"信息,变成了现在的参与"创造"信息,即人们可以发表自己对商品、商家、服务等的评论。越来越多的消费者开始选择在购买前先了解该产品或服务的口碑,从而做出更明智的决策。这些评论信息同样作为一种反馈信息可以帮助生产者了解其产品的优势和不足,从而更好的改进商品和服务,进而获得竞争优势。本文在国内外研究的基础上,运用自然语言处理、机器学习等方面的理论和方法,对中文评论文本进行了细粒度的情感倾向性分析。本文研究的出发点是尽量减少人工标注工作,主要内容包括评价词和评价对象的抽取、评价单元的抽取和情感计算三个部分。(1)评价词和评价对象的抽取部分,为了减少人工标注的工作量,本文采用了无监督方法和有监督方法相结合的方法,以无监督方法的结果作为有监督方法的输入来联合提取信息。本文的无监督方法采用的Apriori算法,将提取的频繁项经过剪枝处理后,作为条件随机场模型(CRFs)的种子词,结合特征模板进行迭代提取最终的评价信息。在评价词提取时,种子词还包括情感词汇本体库中的词。最终得到的评价对象和评价词抽取的F1值分别为69.33%,60.13%,和有监督方法相比,这种方法不需要人工标注工作,并且具有一定的跨领域性。(2)评价单元的抽取是在前面提取出的评价对象词集和评价词词集的基础上,采用固定评价词,以评价对象为链的线性链式CRFs模型,结合特征模板(词、词性、位置特征和修饰词特征)进行抽取。最后将评论文本表示为若干个评价五元组(<评价对象,评价词,否定重数,是否含有程度副词,文本句型>)的形式。(3)文本情感极值是通过计算每个评价单元的极值进而求出整个评论文本的极值的方法得到的。考虑到有些中性词在不同的上下文中会表现出不同的情感极性的问题,在进行情感计算时,将评价对象分为4类、评价词分为5类,结合句型、否定词、程度词对情感分析的影响,给出了不同类别的评价词与不同类别评价对象结合时的极值计算公式。最终本文提出的文本情感计算方法取得的F1值为73.20%,并且实验验证了本文的方法具有一定的跨领域性。