基于Hadoop的时空大数据的分布式检索方法

来源 :中国科学院大学(中国科学院国家空间科学中心) | 被引量 : 13次 | 上传用户:hyh900
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着空间任务变得越来越复杂和频繁,科学卫星产生的数据量级也呈现指数式增长的趋势,并且一颗科学卫星在轨运行阶段会产生数量庞大的数据,这些海量数据具有种类繁多、异构、实时、规模庞大和存储分散、时间周期长等大数据的特点,遭遇到计算能力、存储系统和通信速度三方面的挑战,基于关系型数据库管理系统和文件系统开发的传统的数据管理系统对于存储海量结构化数据的能力支持不够,无法应对高并发访问与高扩展性的挑战,所以需要采用新方法对其进行有效地管理。传统上对空间数据的组织通常采用球体剖分的方式,它是基于传统的关系型数据库系统或者文件系统,以空间剖分网格为基础,将空间数据按照空间区域位置进行编码,通过对编码的检索从而完成对数据的查询过程。但是由于这种数据组织方式是基于传统的关系型数据库,因而对存储海量结构化数据的支持能力不足。Hadoop是当前处理海量数据的分布式系统框架,在支持大规模数据方面表现出了巨大的优势。但是,由于Hadoop最初是基于处理一维非结构化或者半结构化数据开发的存储和处理大数据的框架,因而无法直接用于组织和处理结构化的空间科学大数据。本文针对传统的数据管理无法支持海量数据,并且分布式系统框架Hadoop无法直接用于组织和处理结构化的空间科学大数据的问题,提出了基于Hadoop的空间科学大数据的分布式区域检索算法,以支持数据的快速检索,并用多组数据进行了试验和分析。论文的主要研究内容如下:首先,系统阐述了当前国内外在时空数据的索引方法、二维空间科学大数据的组织方法这两方面的国内外的研究成果,以及对Hadoop相关组件,包括HDFS、MapReduce和Hive的工作机制做了详细的阐述,为之后的研究提供了理论依据。其次,基于Hadoop基础架构设计了时空数据的索引方法,包括数据源索引、时间索引和两级空间索引。其中,两级空间索引包括用于分布式从节点间的数据块Block查询的空间全局索引和用于分布式从节点内对数据块Block进行查询的空间局部索引。提出了利用Hive组件建立数据源索引和时间索引的方法,以及提出了基于立方体的Block‐Grid三维网格剖分方法,设计了分布式环境下的数据查询算法。第三,设计了数据源索引信息、时间索引信息、空间索引信息在分布式系统架构Hadoop,即分布式主从节点中的分布策略,以及在进行数据查询操作时对数据进行检索的执行流程。提出了目标查询区域覆盖空间网格序列的计算方法,该方法能够有效地提高数据的检索效率。第四,基于Hadoop基础架构,设计了能够处理结构化的空间科学数据的NSSC‐Hadoop分布式系统架构,详细介绍了系统的整体结构,搭建分布式集群过程,集群配置过程,并进行了多组试验,对算法进行验证并对试验结果进行了分析。最后,对本文的研究工作进行了总结和进一步展望。
其他文献
谈谈我对研究生的培养●华东师范大学钱谷融长期以来,我一直在高校勤勤恳恳地工作,但由于自己水平低、能力差,建树很少,离党和人民的要求有很大的距离。不过因为我历年所培养的几
利用绕组函数法量化分析分数槽集中绕组永磁同步电机相对于整数槽绕组电机的自感与互感特性,并推导出通用性规律,得出不同每极每相槽数时分数槽集中绕组永磁同步电机电感参数
随着我国人口老龄化的加剧,传统养老方式受到挑战,社区养老服务,作为一种新的居家养老的辅助方式日益显示出其优越性。依托社区和居委会,通过科学的组织管理,不断探索人性化
针对目前在旅游地生命周期理论及其应用问题上的颇多争议,本文利用“P-E”①状况分析矩阵研究的成果[1],从新的角度对旅游地生命周期进行剖析,于旅游可持续发展的实践高度下,
矿区土地复垦是社会经济发展到一定阶段解决矿区土地利用问题的必然选择,复垦类型划分对指导土地复垦的科学发展具有重要意义。本研究以满城县李兵露天采石场废弃地立地特性
为提高基于电力电子逆变接口的分布式电源对电力系统保持稳定所需惯性的贡献,设计了一种基于虚拟同步发电机的新型整体控制策略。利用同步发电机的转子运动方程、一次调频特
<正>美国俄亥俄阿克隆的舒尔曼(Schulman)公司宣布在欧洲推出两种新型热塑性弹性体(TPE)产品以用于汽车领域。两种新型热塑性弹性体分别是Invision VXEP超高
<正>门罗出生在渥太华,她大部分时间都在这个安静的城市度过。她的小说写的是这个城市郊区小镇中平民的爱情、家庭日常生活,而涉及的却是和生老病死相关的严肃主题。这个女作
转鳍液压缸作为船舶减摇鳍系统中重要的执行元件,其性能直接关系着减摇鳍的正常工作,因此对转鳍液压缸进行性能测试试验具有非常重要的意义。针对目前液压缸测试基本以型式试