基于HBase的RDF数据存储与查询研究

被引量 : 0次 | 上传用户:greathuhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着语义网技术的不断发展与进步,用来描述语义网资源的资源描述框架(RDF)越来越多地应用于各个领域,RDF的广泛应用使得其数据量急速增长,如何高效地管理海量RDF数据成为一个急待解决的问题。现有的RDF数据管理系统大都采用传统的关系型数据库来存储RDF数据,随着RDF数据的爆炸式增长,这种方式已难以高效地管理海量RDF数据。有研究表明关系型数据库在处理海量RDF数据时存储与查询效率都比分布式数据库低,越来越多的研究者开始利用分布式系统的海量数据存储与并行计算能力解决海量RDF数据管理问题。海量RDF数据管理的研究主要分为两个方面:第一,如何有效地存储海量RDF数据;第二,如何高效地查询RDF数据。本文针对这两个问题提出一种基于分布式数据库HBase的RDF数据存储模型,设计并实现该存储模型上的SPARQL BGP查询算法。论文的主要工作如下:(1)提出一种基于分布式数据库HBase的RDF数据存储模型,根据OWL描述的本体信息,将RDF实例数据按类划分,主语为同一类的三元组数据保存在该类的S PO和O PS两张存储表中,充分利用HBase提供的Row-key索引,在保证查询性能的同时有效地减少了存储开销。(2)利用HBase Java API实现该存储模型上的SPARQL查询与更新操作,设计满足八种形式Triple Pattern的Triple Pattern查询算法、提供满足子类、子属性和逆属性三种推理关系的Triple Pattern推理算法以及SPARQL基本图模式(Basic Graph Pattern, BGP)查询算法。并且根据BGP中子句的选择度、子句之间是否有共享变量以及子句的谓语是否为rdf:type对BGP查询算法进行优化。(3)采用RDF标准测试数据集LUBM分别在单机伪分布式Hadoop系统以及真实的分布式Hadoop集群环境下对存储模型与查询算法进行了实验评估,实验对不同大小的数据集分别执行LUBM提供的14种查询,验证了存储模型和查询算法的可行性,并且对BGP优化前与优化后的查询性能进行了分析与比较。并且与现有的存储模型与查询算法进行比较,通过对比实验证明了本文提出的方案的有效性。
其他文献
本研究以扬州大学本科生学习参与情况为主要研究对象,调查得出目前扬州大学本科生学习参与的基本情况,分析了目前存在问题和原因,并讨论提出提高扬州大学本科生学习参与度的
行政审判制度建构之初,不论是法学家还是法律家都对行政审判制度寄予了厚望,认为“行政审判体制的建立是中国行宪史上的一个重要里程碑”。人们希望通过行政审判制度以能有效的
地面自主移动机器人是智能机器人领域的一个重要研究方向,它涵盖了智能控制、模式识别、机器学习等多种学科前沿领域。路径规划技术是地面自主移动机器人的关键技术,几乎每一
劳动力资源是经济生产活动的关键要素,其配置效率和价格机制对经济增长发挥关键作用。伴随着我国经济的高速发展,这种巨大的劳动力投入同时造成了非均衡的经济结构现象,这种产业
资产证券化作为20世纪80年代以来最为重要的金融创新之一,为世界金融的发展做出了巨大的贡献,通过资产证券化来获取流动性,更好地进行社会金融资源的配置,大大促进了世界金融
翻开近代传播媒介的发展历史,从书籍、图画到电影、电视,再到多媒体和数字游戏。科技的进步在传播媒介的每一步发展变化中都担任了相当重要的推进角色。迈入二十一世纪后,随着计
随着社会各行各业信息化建设水平的不断提高,国标舞评分系统建设受到越来越多热爱舞动人士的关注和重视。国标舞评分系统始终坚持“实用、可靠、高效”的理念,避免繁琐的流程,提
居住权是人类生存与发展的基本权利。“住有所居”既是人类生存发展的基本要求,也是人类社会发展的基本目标。住房问题是工业化、城市化的产物。中国作为一个人口大国,人均占有
英语考试的书面表达在历年的高考试卷中都占有较大的比分,而写出一篇优秀的英语作文对于多数中学生来说都难以做到。因为英语写作是各种综合技巧的体现,需要学生有一定的审题
学术界对严歌苓作品的研究很大程度上是从关注女性主义理论或文艺理论的角度入手,从中剖析她所刻画的女性形象在中西方不同文化背景下,对女性意识和身份认同等问题。然而对女性