评论文本情感倾向性分析技术研究

来源 :北京交通大学 | 被引量 : 4次 | 上传用户:treef620
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用户在互联网上的行为从过去的只是"接收"信息,变成了现在的参与"创造"信息,即人们可以发表自己对商品、商家、服务等的评论。越来越多的消费者开始选择在购买前先了解该产品或服务的口碑,从而做出更明智的决策。这些评论信息同样作为一种反馈信息可以帮助生产者了解其产品的优势和不足,从而更好的改进商品和服务,进而获得竞争优势。本文在国内外研究的基础上,运用自然语言处理、机器学习等方面的理论和方法,对中文评论文本进行了细粒度的情感倾向性分析。本文研究的出发点是尽量减少人工标注工作,主要内容包括评价词和评价对象的抽取、评价单元的抽取和情感计算三个部分。(1)评价词和评价对象的抽取部分,为了减少人工标注的工作量,本文采用了无监督方法和有监督方法相结合的方法,以无监督方法的结果作为有监督方法的输入来联合提取信息。本文的无监督方法采用的Apriori算法,将提取的频繁项经过剪枝处理后,作为条件随机场模型(CRFs)的种子词,结合特征模板进行迭代提取最终的评价信息。在评价词提取时,种子词还包括情感词汇本体库中的词。最终得到的评价对象和评价词抽取的F1值分别为69.33%,60.13%,和有监督方法相比,这种方法不需要人工标注工作,并且具有一定的跨领域性。(2)评价单元的抽取是在前面提取出的评价对象词集和评价词词集的基础上,采用固定评价词,以评价对象为链的线性链式CRFs模型,结合特征模板(词、词性、位置特征和修饰词特征)进行抽取。最后将评论文本表示为若干个评价五元组(<评价对象,评价词,否定重数,是否含有程度副词,文本句型>)的形式。(3)文本情感极值是通过计算每个评价单元的极值进而求出整个评论文本的极值的方法得到的。考虑到有些中性词在不同的上下文中会表现出不同的情感极性的问题,在进行情感计算时,将评价对象分为4类、评价词分为5类,结合句型、否定词、程度词对情感分析的影响,给出了不同类别的评价词与不同类别评价对象结合时的极值计算公式。最终本文提出的文本情感计算方法取得的F1值为73.20%,并且实验验证了本文的方法具有一定的跨领域性。
其他文献
随着计算机信息技术的迅速发展,对海量数据的存储及访问需求都呈几何级数爆炸式增长,也对数据的存储及访问方式提出了更高的要求。基于对象存储Lustre文件系统结合了传统文件系
云计算是分布式处理、并行处理和网格计算的发展。云存储的概念与云计算类似。它是指通过服务器集群应用、网格或分布式文件系统等技术将网络中大量的处于不同计算机、不同类
随着移动互联网的高速发展,互联网已经成为人们日常生活,企业正常运转等必不可少的通讯方式,绝大多数的数据都要通过互联网传输。这些数据涉及到各个方面,如教育、金融、医学
近年来,互联网技术飞速发展,给人们的生活、工作带来了极大的便利,但与此同时,互联网技术如同一把双刃剑,利弊共存,使得网络安全问题也随之而来。在众多网络攻击及网络入侵中,分布式
工业无线网络自从20世纪诞生以来便得到业界的广泛重视。随着计算机技术、通信技术的发展,工业无线网络越来越多的应用在工业自动化控制领域,并在人们生活工作中发挥着重要的
随着计算机通信技术的快速发展与普及,互联网逐渐成为一种计算平台,云计算作为一种新型的计算模式,描述了一种基于互联网的新的IT服务增加、使用和交付模式。云计算是一种大规模
随着计算机和网络技术的快速发展,通过网络传输的数据急剧增加,许多新的多媒体业务正成为信息传送的重要组成部分。而传统的单播通信方式满足不了新业务的需求,多播技术的出现解
互联网环境中,单个Web服务功能薄弱,已经满足不了用户日益庞杂的实际应用需求。因此,组合基本Web服务成为粗粒度的强大的服务以满足用户繁复的需求,已成为新一代计算环境下的重要
1998年Napeter的出现开始了P2P(Peer-to-Peer)软件在人们日常生活中的应用。随着P2P技术的广泛应用,对于P2P技术的研究也逐渐升温。在P2P网络中,用户之间可以平等自由的交换资
分子动力学模拟是一种利用牛顿运动定律来模拟分子运动过程的方法,给定粒子初始状态的位置和速度,通过对运动方程进行积分,从而求得粒子在下一时刻的位置和速度。这样就能记录下