论文部分内容阅读
随着语义Web上发布的RDF数据量爆炸式的增长,具有海量规模和无标度特性的RDF图数据的划分,成为分布式RDF数据管理的重要问题。根据术语集和断言集结构对RDF数据整体特性的影响,术语集不仅是造成无标度的原因之一,同时其具有规模小,访问频率高和整体性特点。根据该特征设计了一个符合海量RDF数据集特性的性划分框架。在划分放置上,提出了以图划分为逻辑划分,区间划分为物理划分的双层划分放置,该方案结合了图划分的低通信开销特性和区间划分的水平可扩展性及动态负载均衡。实现了术语集冗余放置下的SPARQL查询接口。在具有5.2千万三元组规模的DBpedia子集上进行实验,结果证明术语集冗余处理方法可以有效降低跨划分边的数量。通过BGP查询验证了术语集冗余划分可以有效的提高复杂SPARQL查询的性能。本文的分析与实验表明:基于术语集冗余的划分框架适用于海量RDF划分任务,能够有效的降低边切分,提高计算的本地性,减少集群间的通信开销,从而提高SPARQL等复杂查询的性能。