面向实体的观点挖掘关键技术研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:tingtngliok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网应用的不断普及,越来越多的用户将自己对某个产品或事件的评价信息发布到互联网上。这些信息具有非常重要的价值,它们既可以为政府制定决策服务也可以为广大商家和消费者提供指导信息。但这同时导致了互联网上的数据以一个指数级的速度在增长,如果仅仅通过人工的方法来获得有价值的产品评论信息将是一个既费时又费力的工作,因此如何通过计算机的方法自动获得有用的信息变得非常重要。目前观点挖掘主要从三个粒度进行分析:文本级,句子级和特征级。文本级观点挖掘是假设每一个文本只针对一个事物进行描述;句子级观点挖掘包含两个内容,一是识别主观句与客观句,二是句子的倾向性分析,同样也假设句子只包含一个观点;特征级观点挖掘的任务则包含三个方面的内容:1)识别和抽取文本中的实体特征,2)确定特征上观点的倾向性,3)提供基于特征的多角度观点总结。本文基于文本级与特征级之间,以实体为基本单位,旨在研究面向新浪博客中实体的观点挖掘。论文主要的研究工作及创新之处包含以下几个方面:第一、提出了一个实体一主题模型(Entity Topic Model, ETM),根据分布结果抽取实体及其对应的实体评价词群。ETM模型在传统LDA主题模型的基础上增加了实体信息,将实体表示为主题上的概率分布,主题为词语空间上的概率分布。其基本思想是根据作者撰写博客所评论的实体选择实体标签,再利用标签来指导文本中词语的生成过程。ETM模型会将与实体语义相关的评价词分配到同一个主题下以达到聚类的效果并能挖掘出实体、主题以及词语之间的潜在语义关系。第二、提出了一种利用互信息的方法来二次抽取实体相关评价词群的方法,互信息可以理解为评价两个变量之间相关性的一个指标,实体与其对应的实体特征评价词往往在同一个文本中同时出现,可以通过本方法将与实体不相关但是与实体评价词群中其它词语相关的词语剔除掉。第三、提出了一种基于词语释义的方法构建上下文无关的情感词典,同时利用关联规则抽取语料中固定搭配的词语组合,并判断词语组合的情感倾向性以构建上下文相关的情感词典。最后将实体评价词群以及情感词典进行综合分析以得到直观的面向实体的倾向性分析。
其他文献
随着图像技术的迅猛发展及其应用领域的不断拓宽,图像处理在计算机视觉领域中起到了至关重要的作用。然而由于各种因素的影响(包括外界环境及硬件设备的缺陷等)会使得图像在获得
存储过程作为一种安全、高效的数据库技术已经被广泛的运用在各应用开发过程中,它能够封装应用领域的业务逻辑使软件更加模块化。藉此,将程序自动评估方法引进到这种数据库技术
在信息全球化趋势的带动下,RFID技术的应用领域也随之不断扩大,故其面临的安全问题也暴露的越来越多。近些年来,RFID系统遭受到了一些基于位置距离的攻击,此类攻击具体表现为
烧结过程是钢铁生产的重要过程,烧结矿作为高炉的主要原料之一,其质量好坏直接影响到铁水的质量和高炉的顺利生产。烧结终点是指烧结结束的的位置,是衡量烧结矿产量和质量的重要
近年来随着网民数量和互联网普及率的迅猛增长,新媒体产业也相应的快速发展,特别是其中的视频业务。视频业务由于数据传输量大,对网络带宽、时延、稳定性指标要求更高,这对网
近年来,生物医学技术发展突飞猛进,相关的科研成果和学术报告更是层出不穷。虽然互联网时代的到来使得大家能够方便地从网络上找到这些信息,但大部分的信息仍然被淹没在海量
科学技术的发展加速了人们步入信息化社会的步伐,信息化时代,浏览器作为互联网入口在人们获取信息的过程中扮演着十分重要的角色,随着移动互联网、云计算的兴起,桌面应用慢慢
随着互联网技术在各行各业中的应用不断深化,信息安全问题已经成为影响互联网技术发展的关键因素。数字签名是信息安全领域中的核心技术之一。它保障了网络中的数据完整性和不
随机模型检测是一种不仅可以分析系统的定性属性,而且还能用来对系统属性进行定量分析的高度自动化形式化技术,其基本思想是构造捕获系统行为的数学模型,然后用它来分析指定的定
无线传感器网络是由大量低功耗微型传感器节点组成的无线自组织网络,在军事防御、生态保护、工业控制等领域具有广阔的应用前景。路由技术是无线传感器网络中的关键技术,负责寻