实体一致性扩展技术研究

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:penguin669
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,网络表格的研究逐渐得到人们的关注,相对于文本型数据,网络表格可以帮助人们直观地了解自己感兴趣的信息。人们感兴趣的信息往往分散在多个网络表格中,对于给定的实体与待扩展的属性名,实体扩展以网络表格作为数据源,返回每一实体相对应的属性值,该项技术广泛应用于数据集成和搜索引擎中。现有方法假定网络表格为实体-属性二元关系。对于需要扩展多列属性的表格,解决的方法是将这些表格拆分为若干个实体-属性二元关系。在拆分的过程中,表格的语义被割裂,导致单独扩展的二元关系拼接而成的结果表具有实体不一致的问题。同时,现有方法大多返回单一的实体扩展结果,通常不能完全满足用户的需求。对于给定的实体与属性名,本文的研究目标是返回与之相对应top-k个一致的结果表。为了确保结果表的高一致性和精确度,我们提出一致性匹配关系的概念,通过构建覆盖率为γ的一致性团来实现实体一致性扩展。基于构建结果表的答案表之间应该具有一致性匹配关系的事实,我们将网络表格作为结点,一致性匹配关系作为边去构建一致性团。通过扩展查询使得一致性团的覆盖率到达特定的阈值γ。论文证明,将一致性团中的结点作为答案表可以得到一致性的结果表。我们在四组真实的数据集上进行了实验,通过与其他答案表获取方法的对比验证我们提出方法的有效性。同时,大量的实验结果显示,我们的实体扩展框架在保证一致性扩展的同时,具有高精确度和可信度。在实体top-k扩展方面,本文提出两种算法用于实体的top-k扩展:基于一致性匹配度的实体top-k扩展算法和基于分支限界的实体top-k扩展算法。两种算法的主要思路是在众多的网络表格中找到k个具有最高一致性支持度的答案表集合用于补充待扩展实体的缺失信息,要求其中任意两个答案表之间都具有较高的一致性匹配度,很好地解决了多属性列实体扩展时出现的结果不一致问题。实验结果得出,两种算法很好地实现了实体的top-k扩展,在保持扩展结果的高一致性的同时,也保证了结果的准确度。基于一致性匹配度的实体top-k扩展算法具有较高的多样性,而基于分支限界的实体top-k扩展算法在可信度方面有更好的表现。
其他文献
沈约及其所著《宋书》在汉乐府接受史上具有极其重要的意义。首先,《宋书.乐志》不但详细记载了汉乐府的相关情况,更重要的是,它还在历史上首次收录了汉代16首民间歌诗和汉《
多媒体课件在教育教学领域中得到了广泛的应用,尤其在聋校语文课堂教学中具有一定的优势。充分利用多媒体课件创设情境激发聋生学习语文的兴趣;利用多媒体课件补偿聋生缺陷优
<正>一、我国国有商业银行的委托代理行为分析 (一)特征分析在目前我国国有商业银行的委托代理行为中,普遍存在着委托代理链条过长以及由此产生的信息严重不对称问题。在我国
<正> 笔者从邵其良老师学到验方不少,今摘录二则,供同道参考。一、治遗尿方黄芪30克五味子10克益智仁12克桑螵蛸12克,水煎服,日一剂,可根据具体情况灵活加减。若配合针灸关元
老勃鲁盖尔是弗拉芒地区16世纪最著名的一位绘画大师,对他的相关记载很少而且不确定,但他为人们所留下的艺术作品却成为今日对当时历史研究的有力证据。
利用软件工具制作帮助文件,对自动气象站常见的软件及硬件故障按照故障部位进行分类总结,对照出现的故障现象,分析存在的可能原因及排除方法。系统还包括自动气象站日常维护
随着通信技术的快速发展,数据中心机房的数量激增。我国数据中心能耗高达1000亿度/年,占当年全国工业用电量的1.8%,1同时以每两年增加一倍的速度增长。在这之中,空调部分的能
热岛效应是主导城市环境的要素之一,城市热岛效应研究对城市公共健康,空气质量等影响人居环境的诸多方面都具有重要意义。郑州市作为正处于快速城市化进程中的中等城市,有其
在中学新课改的严峻形势下,师范院校的文学课堂也必须走课改之路。节奏是构成有效教学双边对话的课堂中一个重要的组成部分,把握好节奏,才能真正体现出文学的魅力。在实施过
蓼科植物系统分类一直存在着分歧和异议。本文通过光学显微镜对江西蓼科44种、2变种植物叶片进行了解剖学观察,结果如下:1)叶片横切面主要为“V”字形和“W”字形,不同属组间