论文部分内容阅读
比较是人们常用的表达方式,往往被用来表达对于事物的主观态度和情感。随着互联网技术的发展与普及,网络中包含着越来越多的比较语句,获取比较句中的比较要素对于情感分析、文本挖掘等任务有着重大的意义。国内外现有的比较句相关研究仍然处于起步阶段,比较句识别和比较要素抽取的方法还有很多可以探索的地方。本文以汉语比较句为对象,旨在探索一种有效的比较要素抽取方法。具体包含以下四方面的工作:(1)实现了一种基于词性标注信息的B ootstrapping半监督比较要素抽取方法,可以基于极少量人工标注的优质数据自动生成大量的要素抽取结果;(2)实现了一种基于支持向量机(Support Vector Machine,SVM)的比较句识别模型,探索了比较词、词性、块信息、分布式词向量以及要素特征对于比较句识别性能的影响,实验表明块信息特征和词向量特征分别在召回率和精确率上表现优异;(3)实现了 一种基于条件随机场(Conditional Random Field,CRF)的比较句要素抽取模型。探索了一系列基于比较句特点的要素抽取特征,进而通过主动学习的方法增加训练语料规模,最终获得较好的要素抽取性能;(4)结合比较句识别模型与要素抽取模型,实现了一个比较句要素抽取系统。