论文部分内容阅读
领域知识图谱能够为应急管理工作提供重要的语义知识支持,有效提高突发事件事前预警的精准度和及时性,并为事中事后处置提供科学的依据。然而,目前的领域知识图谱存在知识不完备的问题,特别是知识图谱中很重要的属性知识面临着属性和属性值缺失的问题,而属性补全过程又面临着属性冗余歧义以及属性值填充错误的情况。因此,本文研究领域知识图谱的属性自动补全技术,具有重要的理论和应用价值。本文首先提出了一种多维特征的多源知识库属性融合算法,利用融合字形特征的词向量表示模型得到属性名称的向量表示,再利用余弦相似度衡量名称之间的相似度,进而构建规范化的属性名称集合,为领域知识图谱属性校正提供知识支撑。在此基础上,针对领域知识图谱属性不完备的问题,本文提出属性补全模型,分为两层:第一层利用图谱外部文本语料进行属性补全和第二层利用图谱内部知识进行属性补全,针对第一层设计了一种改进远程监督的属性抽取模型,使用结合依存句法信息的孪生神经网络对实体相关语料进行去噪,然后使用关系分类方法抽取其中的属性信息并补全到图谱中;针对第二层,充分利用了图谱结构信息、实体背景文本信息和类型信息对三元组进行建模,然后利用知识推理对图谱内的属性知识进行补全和纠错。最后,基于上述核心模型,设计并实现了知识图谱的属性自动补全系统。实验表明,多维特征的多源知识图谱属性融合模型相比对照实验,在评价指标中的准确率上具有一定优势,并且能够满足实际应用中多源知识库属性融合的需求;改进远程监督算法的属性抽取模型能够基于多源外部文本实现属性补全,其准确率、召回率、F1值三个指标均优于对比实验;基于知识推理的属性补全任务的平均补全率优于对照实验。综上所述,本文的属性自动抽取模型能够满足实际的应用需求。