论文部分内容阅读
知识图谱是描述真实网络世界中实体事实的图结构知识库,随着互联网数据日益激增,知识图谱中实体的描述变得越来越复杂和冗长。用户在使用知识图谱时,容易迷失在海量实体信息中,区分和比较实体变得越来越困难。知识图谱中实体画像工作的研究目标,是寻找实体间最具有区分度的结构化特征为实体画像,帮助用户较快的区分比较同类型下多个实体。目前尚未有专门的工作对知识图谱中实体画像方法进行研究,本文提出一种基于结构化标签的实体画像方法,通过画像结果精简实体原本繁杂的描述信息,解决知识图谱中实体信息过载和实体理解困难的问题。论文主要研究工作如下:(1)提出了一种知识图谱中构建实体结构化标签集合的方法。通过分析知识图谱中实体复杂的关系以及属性描述,借助统计推断、启发式规则过滤、结构化标签度量排序等技术手段,自动构建用于实体画像的结构化标签集合。(2)提出了一种度量结构化标签区分度的方法。本文提出的结构化标签区分度计算公式,定量刻画结构化标签区别实体的能力,用于排序生成区分实体能力较高的结构化标签集合。同时提出三种实体相似度计算方法,用于结构化标签区分度公式计算,包括基于朴素SimRank的实体相似度计算、基于蒙特卡罗估计的SimRank实体相似度计算以及基于网络表示学习的实体相似度计算。(3)通过设计相关实验评估了本文提出的基于结构化标签的实体画像方法。实验结果验证了本文提出的结构化标签度量方法的可行性与通用性,以及实体画像结果的合理性,并对实体画像结果进行可视化展示。在实际常用数据集上的实验表明,本文提出的基于结构化标签的实体画像方法是有效的,能较好帮助人们对知识图谱中的实体进行理解和区分,为促进知识图谱中实体理解工作提供了一种新思路与方法,具有一定的研究和应用价值。