论文部分内容阅读
谷歌Knowledge Vault、微软Satori、IBM Watson等项目的成功引起了业界和学术界对知识图谱的普遍重视。知识图谱的本质是利用实体和关系来表达客观世界的对象以及不同对象之间存在的关系,由于知识图谱提供了组织、管理和理解互联网中海量非结构化信息的能力,且对信息的刻画方式更接近于人类认知世界的形式,因此在自然语言处理、知识工程和智能信息检索等相关领域具有核心基础地位,是人工智能的基石。然而,受到现阶段开放域信息抽取技术发展水平的限制以及现有数据源中信息缺失的影响,知识的不完备性已经成为了制约知识图谱应用和发展的主要瓶颈。关系推理技术则为该问题提供了有效的解决方案,并且是目前知识图谱扩容和知识质量评估的主要技术手段。关系推理技术的主要思路是利用知识图谱中存在的知识,自动推理获得实体对之间的缺失关系,其已经成为推动知识图谱发展的核心技术之一。本文的研究内容是知识图谱中的关系推理技术,通过对关系推理领域的国内外相关工作进行全面调研,将近些年的主流模型按照建模方式的不同划分成三类,并针对其中的两类方法进行重点研究,本文的主要研究内容归纳如下:1.研究基于表示学习的关系推理方法:通过分析目前主流的表示学习算法,发现其普遍使用的建模假设存在不合理之处,即忽视了实体和关系的语义多样性,据此提出通过非线性变换的方式来解决表示学习中的语义分辨率问题,并根据该思路设计实现了统一加权模型(Unified Weighted Model)和独立加权模型(Independent Weighted Model)。实验结果表明,所提出的模型显著优于目前主流的相关工作。2.研究基于逻辑规则的关系推理方法:分析发现PRA及相关算法存在的两方面问题,一是算法通过随机采样的方式提取关系路径特征,在提高计算效率的同时也牺牲了信息利用率;二是采用有监督学习的方式建立关系推理模型,模型有效性受制于训练集,受到数据稀疏性问题的影响尤为显著。据此,提出了语义的双向性假设和局部关系子图的可推理性假设,并设计实现了双层随机游走算法(Two-tier Random Walk Algorithm)。在公开数据集上的实验结果验证了上述假设的合理性以及本文算法的有效性。