论文部分内容阅读
近年来,网络表格的研究逐渐得到人们的关注,相对于文本型数据,网络表格可以帮助人们直观地了解自己感兴趣的信息。人们感兴趣的信息往往分散在多个网络表格中,对于给定的实体与待扩展的属性名,实体扩展以网络表格作为数据源,返回每一实体相对应的属性值,该项技术广泛应用于数据集成和搜索引擎中。现有方法假定网络表格为实体-属性二元关系。对于需要扩展多列属性的表格,解决的方法是将这些表格拆分为若干个实体-属性二元关系。在拆分的过程中,表格的语义被割裂,导致单独扩展的二元关系拼接而成的结果表具有实体不一致的问题。同时,现有方法大多返回单一的实体扩展结果,通常不能完全满足用户的需求。对于给定的实体与属性名,本文的研究目标是返回与之相对应top-k个一致的结果表。为了确保结果表的高一致性和精确度,我们提出一致性匹配关系的概念,通过构建覆盖率为γ的一致性团来实现实体一致性扩展。基于构建结果表的答案表之间应该具有一致性匹配关系的事实,我们将网络表格作为结点,一致性匹配关系作为边去构建一致性团。通过扩展查询使得一致性团的覆盖率到达特定的阈值γ。论文证明,将一致性团中的结点作为答案表可以得到一致性的结果表。我们在四组真实的数据集上进行了实验,通过与其他答案表获取方法的对比验证我们提出方法的有效性。同时,大量的实验结果显示,我们的实体扩展框架在保证一致性扩展的同时,具有高精确度和可信度。在实体top-k扩展方面,本文提出两种算法用于实体的top-k扩展:基于一致性匹配度的实体top-k扩展算法和基于分支限界的实体top-k扩展算法。两种算法的主要思路是在众多的网络表格中找到k个具有最高一致性支持度的答案表集合用于补充待扩展实体的缺失信息,要求其中任意两个答案表之间都具有较高的一致性匹配度,很好地解决了多属性列实体扩展时出现的结果不一致问题。实验结果得出,两种算法很好地实现了实体的top-k扩展,在保持扩展结果的高一致性的同时,也保证了结果的准确度。基于一致性匹配度的实体top-k扩展算法具有较高的多样性,而基于分支限界的实体top-k扩展算法在可信度方面有更好的表现。