论文部分内容阅读
地质数据采集方式的多样性导致了数据规模的不断增长,已经达到了“地质大数据”的5“V”特点,数据管理和分析处理的复杂程度不断增加,使得对海量地质数据进行高效运维和数据挖掘的难度不断增大,迫切需要新的技术手段来实现地质数据的智能化服务和挖掘地质数据的潜在价值。分布式存储和云计算提供了一种解决上述问题的新思路。Hadoop大数据处理技术得到了国内外研究者们越多越多的关注,成为海量数据存储、计算、挖掘技术的研究热点。 本文旨在基于搭建虚拟化地质云平台,实现积累的地质数据能够共享和互操作。深入研究和探索Hadoop集群中的HDFS分布式文件系统、MapReduce并行编程框架、Hbase列式存储数据库等组件,结合全国地质矿产潜力评价数据,将Hadoop技术应用于地质大数据分析研究中。本文的主要工作如下: (1)通过对云计算和大数据的研究,阐述了其概念、关键技术等内容并提出了地质云平台的体系结构,重点阐述了开源云计算和存储框架Hadoop,尤其是分布式文件系统HDFS、并行计算框架MapReduce和列式存储Hbase。 (2)通过对海量地质数据整合、共享和查询检索的需求分析,利用分布式存储技术和虚拟化技术设计、搭建了Master/Slave架构的云数据计算与存储集群平台。利用Hadoop系统中的HDFS和MapReduce,为我们设计海量地质数据存储架构提供了有力的技术支撑,最终实现在高并发、高负载的集群环境中对地质数据进行高效访问。 (3)从Hadoop集群的云存储出发,解决了小文件在HDFS里合并存储的优化,使用MapReduce算法使合并过程效率更高。同时通过整体考虑各个负载因素,采用信息熵算法确定权重值,经过多轮负载均衡,提高系统应对高并发情况,优化文件读写,系统效率有了极大提高。 (4)研究了架构在虚拟云平台上的HBase数据库,根据矿产潜力评价数据的表特点设计rowkey,提高了地质大数据存储管理、查询检索的效率。通过与Oracle关系数据库的数据入库、数据检索对比实验,验证了HBase在处理海量地质数据方面的优越性。