论文部分内容阅读
近年来,随着天文数据也呈现爆炸式的增长,数据处理的流程越来越呈现出海量和并行化的特征,数据格式也出现非格式化和格式化的形式。加之数据处理的底层系统一般使用集群来搭建,在天文海量数据处理的问题上,空间计算的复杂性和数据量的大规模化使得传统的并行数据处理流程的实现方法如DBMS、网格计算等在性能和可扩展性的问题上难以满足天文应用的需求。因此,如何对海量科学数据进行有效处理成为一个亟待解决的问题。MapReduce是一种简洁抽象的分布式计算模型。它不仅架构简单、免费开源、伸缩性强、可用性强以及有效支持数据密集型应用,而且它很好地解决了并行计算的负载均衡、数据分布、容错、资源分配和网络存储等方面的问题,使人们能轻松地操纵大规模的集群系统而无须考虑硬件细节,从而有效地提高了工作效率。科学家逐渐开始关注本领域的研究问题。本文在分析MapReduce模型的基础上,结合天文数据的具体特点,通过MapReduce框架实现锥型检索服务,并在此基础上就如何运用MapReduce进行完整的讨论。第一,本文提出了基于MapReduce的天文数据处理方法。在研究MapReduce框架技术方面的一些学术和应用成果的基础之上,结合天文数据的具体特点,分析说明了MapReduce框架技术在天文数据处理中的优势。并且针对锥形检索服务实例,详细描述了基于MapReduce的天文数据处理的方法。第二,本文设计并实现了基于MapReduce的锥形检索服务。在搭建的Hadoop集群环境下,根据星表数据的特点运用Hadoop进行了数据分析,将锥形检索表示成MapReduce作业,并分别在本地和集群上测试运行锥形检索服务。第三,本文通过搭建实验平台,分别进行六组测试实验,包括基于MapReduce的锥形检索服务对文本格式星表数据的处理性能分析;在大小集群两种环境下基于MapReduce和MySQL的锥形检索的对比实验;对基于MapReduce的锥形检索服务的系统差时间测试;通过参数调优实验测试出基于MapReduce锥形检索服务的最优输入数据分块大小以及文件分块大小。实验证明,基于MapReduce的锥形检索服务的设计和实现是成功的,验证了基于MapReduce的天文数据处理方法在处理能力方面的大幅提高。