云计算中分布式JobTracker节点模型的建立与优化

来源 :河北工程大学 | 被引量 : 1次 | 上传用户：levelsetsharon

【摘要】

：

云计算是随着大规模计算机、个人计算机、互联网的发展而产生的第四次IT产业革命,谷歌首先定义并发展了云计算。而云计算的开源模型Hadoop是一种基于Java的通过运行可分布式

【作者】

：

杨海龙

【机构】

：

河北工程大学

【出处】

：

河北工程大学

【发表日期】

：

2016年01期

【关键词】

：

Hadoop MapReduce JobTracker 分布式通信调度算法负载均衡

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

云计算是随着大规模计算机、个人计算机、互联网的发展而产生的第四次IT产业革命,谷歌首先定义并发展了云计算。而云计算的开源模型Hadoop是一种基于Java的通过运行可分布式的密集型应用来分析和处理大数据的开源分布式计算平台,其中的单点问题造成了Hadoop的性能瓶颈。针对存储模型架构HDFS中的namenode节点的单节点优化,Hadoop2.0提出了多节点高可用性方案,但是针对JobTracker节点的单节点优化并没有给出相应的解决办法。本文期望通过建立分布式JobTracker节点模型来改善传统的计算模型架构中的单JobTracker节点故障,从而能够自动避免单JobTracker节点故障导致的作业运行失败。本文的主要工作内容及贡献如下:在充分分析了前人对单JobTracker节点模型的改进和对调度算法与负载均衡算法的调优。首先通过对最短路径算法Dijkstra算法、网页权值判断算法PageRank算法和网页去重算法Bloom Fliter算法的研究,建立了分布式JobTracker节点模型,并通过Dijkstra算法对分布式JobTracker节点模型中多对多节点间的通信方式进行了优化,以期望多节点模型下的多个JobTracker节点和任务节点间能够均衡的进行通信;其次基于PageRank算法对作业的调度方式进行了优化;最后进一步通过Counting Bloom Filter算法改进各个节点上任务的复本数,从而对分布式Job Tracker模型中节点的负载进行了优化。本文在分析完分布式JobTracker节点模型的通信方式及其相关的调度优化后,搭建了小型Hadoop实验集群对结果进行了实验验证。由实验结果可以看出,单JobTracker节点模型与分布式JobTracker节点模型相比,在集群发生宕机时,分布式JobTrackder节点模型具有更高的可靠性,基于Dijkstra算法的通信方式能够更快速的选出JobTracker节点;对于改进的作业调度算法,在提交的作业具有依赖关系时,基于PageRank的改进算法能够更进一步的提高作业的整体处理时间;对于改进的负载均衡算法,从副本的存储负载角度对集群的负载进行了优化,从而提高了重复数据副本存储空间利用率。实验最后对集群的综合性能进行了对比,由实验结果可以看出,分布式JobTracker节点模型下的优化由于主要是针对特定作业的优化与改进,处理作业的综合性能并不如原有集群高,但是当集群发生JobTracker节点宕机时,提高了集群的安全可靠性,并针对特殊场景的作业处理具有很好的意义。

其他文献

基于QoS本体的语义Web服务选择技术研究

Web服务选择作为Web服务应用过程中的重要环节,其目标是为服务请求者提供最符合其需求的服务。随着网络上提供相同功能的Web服务数量的日益增多,基于功能性匹配的服务选择方

学位

服务质量语义Web服务本体服务选择

延迟光照技术及其在虚拟漫游中的应用

虚拟现实系统，计算机游戏技术等都离不开对光照效果的模拟，对光照模拟的深入研究综合体现了当代计算机图形学的发展水平，具有重要的理论和实践意义。然而，真实感光照模拟因在实时

学位

面向数字化校园的数字档案馆的实现

进入21世纪知识经济时代,数字化校园的概念逐步被广泛关注、认同：数字化校园以计算机技术和网络系统为依托,从环境(设备教室等)、资源(图书等)到活动(包括教学、办公、服务等)

学位

网络化数字化档案

电力企业信息网络拥塞控制的研究

近年来,电力企业在信息化建设方面迈出了可喜的步伐,大部分应用系统采用了大集中的服务器部署模式(服务器集中在省级公司)。毫无疑问,业务种类及并发用户数量的不断增长导致

学位

拥塞控制TCP友好多业务资源分配服务质量TC-TFRC

无线传感器网络中能量空洞避免算法的研究

无线传感器网络是新兴的下一代传感器网络,它有望建立起一种无处不在的网络,渗透到社会生活的方方面面,必将极大地影响或改变人们的工作生活方式。这种新的数据采集与处理技

学位

无线传感器网络能量空洞问题动态最长-最短圆环寿命问题免疫克隆算法

医疗信息系统数据整合和数据挖掘研究

信息系统的广泛使用及大量医疗数据的存储，使得数据的交换和整合越来越频繁，由于大量异构逻辑数据源的存在，数据挖掘和数据整合技术成为多应用系统整合的关键。本文对美国美中互

学位

问题解决中启发式规则搜索的研究

问题解决是人类思维最常见的一种形式，是人类重要的高级智能活动之一。认知的信息加工理论认为，问题解决的过程，主要是对问题空间进行搜索的过程。然而，毫无目的盲目的搜索效率很

学位

IPv6分布式防火墙原型系统

伴随互联网的迅速发展，网络安全已成为人们普遍关注的课题，网络安全技术越来越受到重视。作为网络安全的第一道防线，防火墙技术已经成为网络安全体系中一个最重要的环节。IPv6协

学位

基于ARM的嵌入式Linux平台的研究与实现

在社会快速发展,人们对新产品的服务和需求日益强烈的背景下,嵌入式技术需要不断的更新和发展。随着理论研究的进一步深入,建立嵌入式平台的Linux操作系统内核和根文件系统制

学位

ARMLinuxU-boot根文件系统设备驱动

业务规则技术在分布式环境下的应用研究

在传统的应用程序开发过程中,随着国家政府部门的法律法规的改变、企业的市场竞争策略以及内部管理方式的改变、不同客户的个性化需求的不同,使得信息系统的需求经常性的发生

学位

规则引擎分布式系统Web服务JSR94规范

云计算中分布式JobTracker节点模型的建立与优化

其他学术论文