基于文本生成式的实体关系抽取算法研究与系统实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:javaer0128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系抽取作为自然语言处理和信息抽取领域的核心任务之一,它是通过关系抽取技术从非结构化或半结构化文本中提取特定实体和关系等事实信息,并以结构化的形式保存下来。而目前大多公开的研究集中在处理简单场景,将实体关系抽取转换为句子级别的分类任务,难以处理现实场景中普遍存在的一句话中包含多实体和多关系的抽取情况。在医学相关领域,卫生信息化程度不断提高,医疗信息系统不断完善,聚集了海量的医学数据。从模态各异的数据中提取结构化信息,并加以管理、共享和应用,是医学智能化过程中亟需解决的关键问题。但医学领域一直缺乏开源的知识库,并且医学数据种类繁多、形式各异,从医学非结构化及半结构化文本中提取高质量的医学知识为后续知识图谱构建等上层应用提供数据支撑仍然存在困难。针对以上问题和挑战,本文的主要工作内容如下:(1)提出了一种基于指针-生成器结构的多实体关系抽取方法,将实体关系抽取任务转换为文本生成式任务,即,将实体词和关系词作为目标文本进行生成,来解决非结构化文本中重叠的多关系抽取问题,实现了关系三元组抽取性能的提升;(2)基于此,进一步提出一种基于Hierarchical LSTMs结构的多实体关系联合抽取方法,低层LSTM用于预测关系,高层LSTM用于识别隶属于当前关系的一对实体,明确实体和关系的生成位置,同时更好的融入关系信息指导对应的实体标注序列的生成,提升联合抽取中实体识别的准确性,进一步提高抽取关系三元组的准确性;(3)基于中文医学领域非结构化及半结构化文本的实体关系抽取技术,实现针对本地文本、疾病百科网页等多源异构数据的知识提取,并集成一套医学结构化知识的抽取工具,同时输出一套中文医学结构化知识。基于上述模型和工具,针对当前市场上缺乏开源的实体关系抽取系统,本文搭建基于Web的医学实体关系抽取服务系统,实现从数据收集、到知识抽取、再到数据可视化的全流程工程化服务系统,为研究人员和相关用户提供技术服务。系统共分为数据采集模块、知识抽取模块、知识存储模块以及可视化模块。
其他文献
本文以中央与地区“九五”、“十五”、“十一五”、“十二五”规划中提及的重点产业为切入点,利用中国1998-2015年的制造业碳排放数据,考察产业政策的碳排放倾向对地区碳排放强度的影响。研究发现,地方政府更关注短期经济增长,更偏向发展高产值的高碳排放行业,而中央政府着眼于经济发展的长期目标,更倾向于发展低碳排放行业;地区产业政策越扶持高碳排放行业越能显著降低地区的碳排放强度,而中央产业政策的影响不明
传统网络服务进入工业控制系统促进了工业云发展的同时,也因为一些开放的服务带来了一系列安全性问题。考虑到工业设备本身7*24小时连续运作的状态,以及其对于安全测试工具的限制性,要采用完全无损的安全工具对工业云系统扫描。因此选择合适评估方案,在安全事件发生之前对结果进行安全风险预估对工业云系统来说是很有必要的。本文提出一种基于贝叶斯攻击图的信息安全评估方案,通过静态和动态安全风险管理对被测工业云系统进
随着中国经济社会的飞速发展,我国人口结构呈现老龄化、少子化、家庭规模小型化等特点,家庭保障性功能弱化,商业人身保险的作用凸显。但与西方国家相比,我国商业人身保险行业还处于较低的发展水平,人们对保险的接受度还不高。考虑到我国农村家庭投保率普遍较低,年均保费支出极少的现实情况,本文使用2015年中国家庭金融调查(CHFS)数据,从微观层面研究了城镇家庭人口结构对商业人身保险需求的影响,同时将人身保险细
助溶剂法能够在低温时生长出微管和位错等缺陷较少的高质量SiC单晶。本论文开展了以稀土金属作为助溶剂,制备SiC单晶的物理化学研究。此外,以Nd-Si合金的合成和分离为例,研究硅还原稀土氧化物制备REs-Si(REs为稀土)合金生长SiC单晶的可行性,并解决了采用REs-Si熔体生长SiC单晶后的REs-Si合金循环利用的问题。得到的主要结论如下:1.当采用La作为助溶剂时,液-固平衡后样品中的物相
随着社会逐步向智能化方向迈进,任务型多轮对话系统越来越成为学术界和工业界关注的热点方向,其广泛的应用价值和商业价值受到了人们极大的关注。目前任务型多轮对话系统发展方面仍存在着以下挑战:1)对话系统的上游的自然语言理解模块没有建立起意图识别和槽值填充之间的直接联系,两个子任务仍是相互独立的两个子任务;2)对话系统的对话理解模块缺乏一种可结合深度学习模型和规则匹配优势的解决方案;3)对话系统的自然语言
神经网络是一种非线性动态系统,在参数选取得当的情况下,可以表现出很大的复杂动态特性,T-S模糊系统则是由一组IF-THEN规则描述的非线性系统,可以将整个输入空间转化为多个局部模糊空间,用线性方程组表示每个输出空间,从而给出非线性系统的局部线性表示,使得许多线性系统理论可以方便地应用于非线性动力系统的系统分析.此外,同步控制在各个领域的应用也十分广泛,相关控制问题引起了学者的广泛关注.另一方面,由
鬼成像通过对两臂探测器所测数据进行关联运算来重构目标物体图像,打破了传统成像的思路和限制,具有“离物成像”的特点,可以实现超分辨、远距离成像,并拥有优异的抗干扰能力,因此在诸多领域都有广泛的应用。物体图像由数据运算获得,图像质量与数据采样率紧密相关。高分辨率的图像通常意味着大量的采样数据和长时间的运算,对实验器材、硬件设施提出高要求,也影响了成像的实时性。对应鬼成像和压缩感知鬼成像都可以在保证成像
在我国经济持续发展的大背景下,有越来越多的大型企业集团的发展进入了成熟期,而这些成熟期的企业集团往往存在管理成本较高、组织机构设置复杂以及管理制度繁杂的管理问题,进而导致了财务管理也出现了各种问题:财务工作需要大量的人力资源,导致人力成本较高;企业集团对子公司的财务管理难度增加;财务信息质量低等。而财务共享中心的构建能够有效解决上述问题,财务共享中心是通过信息系统,将分散在子公司的具有单一性和可复
城镇土地使用税是我国在土地保有环节征收的唯一的税种,是地方财政收入的主要来源,在调节土地方面具有重要的作用。所以,针对A市有限的土地资源以及在土地使用方面存在的很多问题,要发挥城镇土地使用税在提高土地利用率、调节地方政府土地政策、增加地方财政收入方面的作用,就必须进一步对城镇土地使用税征收管理进行改进。本文结合A市财政局、税务局联合发布的《关于<A市人民政府关于调整城镇土地使用税等级范围和分
伴随经济形势的变化和我国住房改革步伐的推进,房地产行业的发展将面临诸多挑战。在房地产市场总体平稳健康发展的大背景下,进一步提升企业竞争力,不断开发以市场需求为导向的产品将有利于企业在竞争中立足。作为连接市场需求和房地产产品开发建设的枢纽环节,市场营销的作用逐渐凸显。运用创意营销策略,强化促销效果,突破销售瓶颈,充分发挥市场营销功能是推进房地产企业发展壮大的重要举措之一。山东省在不断发展积蓄新动能的