论文部分内容阅读
随着人类对地质灾害的重视,地质灾害监测的手段也更加多样化,对地质灾害的长期监测,带来了海量的监测数据,如何及时有效地对大规模的地质灾害数据进行分析,从而做到地质灾害的中长期预警,成为研究的热点。将大数据技术应用到地质灾害数据挖掘研究中,以实现地质灾害的中长期预警监测成为一种共识,在滑坡的中长期预警研究中,预测模型的运算效率对滑坡防控的及时性起着关键性的作用,研究发现,滑坡的中长期预警中存在两个主要问题:(1)在大数据背景下,面临大规模数据读写的时候,数据库的吞吐性能较低;(2)基于分布式的滑坡预测模型并没有针对算法的特性做效率优化等问题。针对于发现的问题,优化大数据技术下存储模型和地质灾害预测算法模型是本文的重点研究内容,使用优化后的方案建立基于Hadoop的地质灾害大数据挖掘框架,并对该挖掘框架做应用的可行性验证。建立基于Hadoop的地质灾害大数据挖掘框架包括:建立分布式计算环境,优化数据存储模型,优化地质灾害预测模型。主要内容如下:(1)在分布式计算环境建立后,为了使地质灾害挖掘框架有更强的实用性,需要优化数据存储模型,优化数据存储模型是地质灾害大数据挖掘框架可行性的基础。本文通过实验对比分析Mongo-Hadoop MapReduce和MongoDB MapReduce两者的数据吞吐性能差异,发现Mongo-Hadoop MapReduce比内置的MongoDB MapReduce在数据吞吐方面性能更好。选择Mongo-Hadoop MapReduce作为数据库的技术支撑,但是默认的数据库分割大小不适用于Mongo-Hadoop MapReduce,为了进一步优化数据存储,在数据分割方面做了进一步研究,发现当数据量在一定范围内,将数据分割在100MB以上,数据库的性能有一定的提升。(2)地质灾害预测模型优化是地质灾害大数据挖掘框架建立的重点工作内容,在滑坡的中长期预警研究中预测模型的运算效率对灾害防控是至关重要的。本文以空间数据挖掘中使用最为广泛的Apriori算法为例,原始的Apriori算法运行时会产生大量的频繁项集,当数据量过大时,硬件的压力会越大。基于MapReduce的Apriori算法主要通过计算模型进行优化,并未从算法层面做优化。本文从算法底层着手,提出一种基于MapReduce框架的IAprioriMR算法,使用Webdoc数据集为实验数据,验证IAprioriMR算法的运算效率,通过对比分析发现,优化后的IAprioriMR算法模型,相对于传统的并行AprioriMR算法,效率有了提升,随着MapReduce环境中节点的增加,优化的IAprioriMR算法在性能提升方面更为显著。(3)使用三江并流地区滑坡灾害数据验证优化后的地质灾害大数据挖掘框架是否可行。选取2000~2011年间的滑坡监测数据集作为训练模型,选取2012~2013年间的滑坡监测数据集作为测试数据。根据IAprioriMR的预测模型规则,设定监测点地下水位、降雨量、三江并流河流水位、滑坡监测点累计位移等为滑坡发生的诱导因素,滑坡发生为结果。2012~2013年间,三江并流地区共记录滑坡灾害21起,通过计算置信度大于0.7的规则,该挖掘框架成功判断出2012~2013年间的16次滑坡事故。本文建立的挖掘框架对地质灾害中长期预警研究有一定的可行性。