基于深度学习的中文信息抽取算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:a610735932
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的发展,大量信息以文本的形式存在于互联网。互联网的文本知识通常是以非结构化的形式存储在网页之中,常规的规则抽取手段无法很好的抽取这些知识。因此如何使用自动化的方法从文本中抽取出关键信息便成了行业内迫切需要解决的需求。信息抽取算法技术的主要目的是精准、快速、高效的从非结构化的自然语言文本中抽取出结构化的信息,并以相应预设定的格式进行保存,以供后续使用。三元组信息抽取的传统研究思路包括基于规则抽取、机器学习抽取以及深度学习方式抽取等。基于深度学习的方式相比之前的研究方法在建模效果上具有很大的优势,而在深度学习方式中,使用流水线方式和联合学习的方式存在实体对的指向、匹配问题,基于层次二分标注的方式虽然有效的对实体对进行建模,但也会存在多建模步骤引起的错误传播问题。本文为了解决多阶段的预测问题,设计实现了有向图结构的一阶段模型。此模型利用有向图的邻接矩阵来同时表达实体对的位置,以及实体词之间的指向关系。同时本论文设计了多种构建有向图邻接矩阵的模型,其中基于双线性矩阵注意力模型能够有效的利用注意力矩阵构造有向图的邻接矩阵。本文在层次二分标注模型的基础上,探索了不同的范围提取模型提取实体词特征的能力。其中端点向量混合的方式在原方法的基础上进行了改进,利用简单的特征工程的方法进一步增强了层次二分标注模型的三元组信息抽取能力。同时,本文参照基于层次二分模型的思想,将三元组信息抽取结构进行进一步细分,设计实现了三阶段模型。此模型的研究重点是不同的实体对关系分类器的分类表现。本文实验了多组关系分类模型,其中,卷积神经网络模型的分类效果要略优于长短记忆网络等模型。本文设计实现的基于有向图结构的预训练模型与双线性矩阵注意力模型组合能够达到f1值为0.807的分数,提出的基于层次化二分标注三阶段模型能够达到0.778的f1值,与文献中提出的层次化二分标注二阶段模型0.697的f1值相比,都获得了明显的效果提升。
其他文献
植物是水生态功能系统中必不可少的因素,是水生态系统中重要的生态因子。目前,大多学者在水流阻力、流动结构等方面对刚性植物做了大量研究,有较丰富的成果,但不同柔韧度的植
影响多年调节水库的期末蓄水位的因素有很多,主要有年初水位、未来1~3a入库径流量等。对于不同的水库,影响水库期末蓄水位的因素也不一样。以具有多年调节能力的狮子滩水库为研
信息通信技术已是我们日常生产和生活中须臾不能离开的技术,所不同的是,我们无需“穷尽”、“洞悉”和“抗拒”,它非常自然地走进了我们的日常生产和生活,以至于每个人都是信息通
我国国土辽阔,山地(包括高原和丘陵)面积660多万平方千米,约占总国土陆地面积的69%,山区人口占全国总人口的30%以上,山地面积比重大,随之而来的自然灾害增多。近年来,频频发