论文部分内容阅读
随着大规模数据运算的不断发展,运算集群的规模越来越大,对系统可靠性的要求也越来越高。然而,对于如此大规模的集群,不可避免的存在着各种各样的故障发生。在MapReduce作业的运算过程中,集群上任务故障和节点故障更是十分普遍。然而,MapReduce现有的故障处理方式存在着一些缺陷。因此,对MapReduce计算模型故障恢复机制进行研究与设计具有很大的意义。本文阐述了云计算的概念、特点以及发展现状,并简单介绍了Hadoop集群的特点,在此基础上,说明了对大规模集群故障恢复机制进行研究的意义以及国内外的研究现状。然后,本文对MapReduce计算模型进行了简单的介绍,阐述了MapReduce计算模型的基本思想、工作原理和任务调度流程。在此基础上,介绍了MapReduce计算模型主要故障类型,并针对各种故障类型深入分析了其故障处理方式。接着,在现有的MapReduce计算模型基础上,增加了节点的自动重启功能模块,使得各节点在故障后可以迅速重启;并进一步对任务故障后的恢复机制进行了设计与实现,使得运行失败的任务在重新调度后不必从头开始执行,而是可以在故障前的进度基础上继续执行。通过相关的优化,使得集群在运算中出现故障后能够更快的实现故障恢复。最后,本文对优化后系统进行了功能和性能的测试与评估。结果表明,优化后系统的故障恢复机制在功能上达到了预期的目的,性能上优于原先的MapReduce计算模型。