论文部分内容阅读
伴随着网络技术的发展和进步,网络中的数据量产生了爆发式增长,促使了一批专门用来处理和存储大数据的分布式系统的出现和发展,Hadoop大数据平台就是其中最著名的一员。而近些年为了应对海量数据的压力,人们选择了具有强大计算能力的GPU。自此,分布式系统尤其是拥有多个GPU的分布式系统的地位越来越高,在人们享受这些分布式系统带来的便利的同时,其能耗问题也称为了人们关注的重点。由于最初设计Hadoop时没有将节能问题考虑进来,导致在Hadoop集群运行之后能耗过高的问题比较严重。最近,Hadoop又提出了使用GPU处理任务的解决方案,而GPU能耗占节点总能耗的比重不容小视,这加剧了Hadoop集群能耗过高的问题。因此研究如何减少Hadoop集群的能耗对于提高互联网企业的效益乃至响应国家节能减排的号召都有着极其重要的意义。本文通过对Hadoop平台整体架构以及运行机制进行深入剖析,将Hadoop集群拆分为HDFS集群和YARN集群,同时使用Docker容器技术将集群的各个节点进行封装,便于实现对Hadoop节点的操作完成节能的目的。接着基于容器编排平台Kubernetes实现了Hadoop集群的创建和节点调度,新创建的Hadoop节点将自动调度到合适的宿主机上运行。同时搭建私有仓库存储镜像文件,Hadoop集群创建时只需要从私有仓库中拉取镜像,方便快捷。然后实现了Hadoop集群的监控模块和自动伸缩模块,监控模块可以监控Hadoop集群的资源利用情况,如处理器利用率和GPU利用率等等,而自动伸缩模块则通过监控模块得到的指标信息自动调整Hadoop工作节点的数量,使整个集群的负载保持稳定,实现集群能耗优化的目的。本文在三台服务器上部署了Hadoop集群的能耗优化系统,并对其资源监控和节点自动伸缩等功能进行了测试,同时对比通过传统方式直接运行在物理机上的Hadoop集群,发现该系统对Hadoop集群的性能有较小的影响。此外为了验证系统在大规模集群环境下的节能效果,本文利用Cloud Sim仿真平台进行仿真实验,结果表明,本文实现的能耗优化系统有效的减少了Hadoop集群的能源消耗。