【摘 要】
:
随着互联网技术的高速发展和大数据时代的来临,数据呈爆炸式增长,如何对这些数据进行智能分析和自动处理,高效地挖掘出潜在的有使用价值和社会竞争力的信息就显得愈发重要。
论文部分内容阅读
随着互联网技术的高速发展和大数据时代的来临,数据呈爆炸式增长,如何对这些数据进行智能分析和自动处理,高效地挖掘出潜在的有使用价值和社会竞争力的信息就显得愈发重要。信息抽取正是在这种背景下应运而生。其中,事件抽取是信息抽取领域中最具挑战性的基本任务之一。目前,事件抽取方法一般是基于监督机器学习的方法,然而基于机器监督学习的方法往往需要大量的标注样本,人工标注这些样本耗时耗力。同时,事件类别的多样性导致事件语料的稀疏和不平衡。这些问题在各种语言背景下的事件抽取任务中都不同程度的存在。本文主要针对基于英文和中文的双语事件抽取方法展开深入研究,主要研究内容包括以下三个方面:首先,本文提出了一种基于双语特征空间叠加的事件抽取方法。其核心思想是使英文和中文事件有效结合,然后通过特征空间叠加的方式获取双语特征文本,实现对中英文的事件抽取。该方法能够扩大单语事件抽取的训练集规模和信息量,从一定程度上避免因语料稀疏所带来的不利影响。实验结果表明,该方法相比于传统的单语事件抽取,能够获得更好的性能。其次,本文提出了一种基于整数线性规划的跨语言事件抽取方法。其核心思想是利用丰富和完善的英文事件的研究资源实现中文事件抽取,并通过整数线性规划的联合学习模型对事件识别和分类的结果进行优化和统一。实验结果表明,当我们使用英文源语言及其翻译的叠加语料进行训练时,能够获取较好的中文事件抽取的效果。最后,本文提出了一种基于主动学习的双语事件抽取方法。其核心思想是使用英文事件训练分类器,通过不确定性的选择策略从中文的未标注样本中挑选出一部分样本,结合自动标注的结果进行选择性的人工标注,将标注后的样本加入到训练集中,最后使用扩展后的训练集构建最终模型,实现事件抽取。实验结果表明,该方法可以有效的降低人工标注样本的消耗,丰富训练样本的信息量,同时能够获得较好的事件抽取效果。
其他文献
安防技术的研究与应用对国计民生具有特别重要的意义,安防系统的应用已经逐步从工业、国防领域延伸到小区和民居。随着科技的发展,网络化已成为一个不可逆转的历史趋势,安防
人脸图像变形动画技术是计算机动画研究的一个重要分支。无论是电影电视、游戏娱乐、远程通信还是虚拟环境,人脸动画技术都被应用其中,为人们的交流、文化和娱乐带来极大的便
本文研究了含有控制时滞的汽车主动悬挂系统的减振控制问题,其研究内容概括如下:1、研究汽车在粗糙路面行驶中主动悬挂系统的最优减振控制问题。在考虑控制器时滞的情况下,利
近些年随着社会进步和科学技术的迅速发展,软件产品的应用更加广泛,已经涉及到社会的各个领域。与此同时人们对软件产品质量的关注程度也逐步增强,不论是软件的开发者还是软
近些年来,越来越多的学者和研究人员关注智能优化领域,智能优化算法因而得到广泛地研究,并且应用到多个领域,例如生物信息学、数据挖掘、模式识别、城市规划和软件工程管理优化,等
三维地质建模是运用计算机在三维环境下进行地质分析的技术。传统的地质信息模拟与表达只是将三维空间信息在某一平面上进行呈现,存在空间信息损失与失真、制图过程繁杂和更
随着社会的发展和技术的进步,人们越来越意识到海洋在人类社会发展进程中的重要作用。海洋为大类提供广阔的发展空间和资源优势,对于海洋进行一定深度和广度上的开发成为世界
句法分析是自然语言处理的主要任务之一。本论文的目的和任务是对给定的自然语言句子,根据给定的语法自动识别其句法结构,并分析句子所包含的句法单位以及这些句法单位之间的
针对应用中常见的时滞系统以及系统中最常见的一类传感器和执行器故障本文研究含测量时滞系统的故障诊断问题。首先综述了故障诊断和控制的国内外研究现状,介绍了时滞系统的故障诊断制成果。然后利用最优理论、对偶原理、线性矩阵不等式及状态观测等技术,提出了在系统中含有不时滞情况下的故障诊断和容错控制方法。本文的研究内容概括如下。1.对带有故障的线性系统模型进行了描述,并对本文所研究的一类已知动态特性未知初始状态
随着信息技术在劳动力市场和社会保障管理方面的广泛应用,各地劳动保障系统中积累了大量的劳动力就业、失业、求职和招工的数据。这些数据是大量的、不完全的,但同时又是非常