分布式深度学习训练优化设计与实现

来源 :西南大学 | 被引量 : 0次 | 上传用户:zengyufeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着可用数据的爆炸式增长以及相关算法的不断优化,深度学习在人工智能的很多领域中都取得了重大的突破性应用。比如:语音识别、无人驾驶、图像识别的创新应用更是将“人工智能”成为当下互联网时代的“新宠”。然而,深度学习的发展在提升人们生活品质的同时,用于深度学习训练的数据集规模变得日益庞大,算法模型结构也变得越来越复杂。当基于深度神经网络的模型进行训练时,如果不做任何剪枝等处理,那么这样的深度神经网络模型可能会拥有数百万个参数,这样带来的问题就是内存存储空间以及算力资源的不足。在工业生产等环境下,为了提高深度学习模型的训练效率,减少训练时间,我们普遍会采用并行化设计来执行训练任务,利用多个工作节点,分布式地、高效率地训练出性能优良的深度神经网络模型。分布式并行化技术作为深度学习模型训练过程中的加速器,通过多机多卡的优势,能够显著提高深度学习的训练效率。于是基于深度学习的分布式训练的优化设计成为了人工智能领域一个重要的研究方向,许多专业的科研学者和公司从不同的研究角度对深度学习的分布式架构和算法进行了优化改进,也总结出了许多关于分布式训练的经验和方法。但是本文在实际的应用研究过程中,发现存在以下的问题:(1)很多时候多层数且复杂的神经网络很难在有限内存的单点计算单元里面运行,以至无法通过大规模数据进行训练,而且单机训练时长周期影响着整体的开发或科研周期。但是基于Tensorlfow的分布式训练框架代码逻辑与单机版存在巨大的差异,导致用户每次在进行分布式训练前,需要将自己的单机版代码修改成分布式框架结构,增加了用户的使用难度。(2)在基于深度学习的Tensorflow训练框架进行分布式训练时,存在着同步更新和异步更新两种参数更新机制,由于Tensorflow的分布式训练框架结构是基于Parameter Server架构,导致计算服务器节点之间的参数共享是通过参数服务器作为媒介,导致计算节点的通信效率下降,尤其是同步更新机制下,严重影响分布式训练的实效性。(3)在异构环境下的分布式训练过程中,由于异步参数更新机制或者节点之间的宽带大小、传输效率等原因,会带来较大的梯度延迟,分布式随机梯度下降算法的稳定性和时效性都受到了严重的影响并出现了严重的下降。在进行分布式训练时,发现实际运行的效率和准确度与预期的结果总是大相径庭。针对以上问题,本课题致力于深度学习并行加速训练平台系统的优化设计与实现,主要贡献如下:(1)针对于利用深度神经网络的模型结构进行分布式Tensorflow训练时,需要用户将单机版Tensorflow训练代码更改成分布式框架结构,导致给使用者带来的修改难度大、不易于分布式训练以及因为Tensorflow版本问题带来的无法进行分布式训练问题。从异步更新机制的角度考虑,本文提出了通过将原生Tensorflow分布式框架解析并拆分成客户服务端架构,其中,将用户单机版Tensorflow代码框架作为客户端,将剩余的框架结构进行二次开发成新的分布式框架NFDT(New Framework for Distributed Tensorflow,NFDT)框架作为服务端。NFDT框架作为服务端与作为客户端的单机版框架建立通信连接,通过调用单机版Tensorflow框架的模型结构、优化器、损失函数等结构并组成了可用于分布式训练的完整条件,进而实现了单机版Tensorflow代码快速实现分布式的训练。(2)本课题在构建分布式训练平台系统过程中发现,在同步更新机制下,分布式Tensorflow由于采用的是基于Parameter Server架构导致训练的实效性会受到很大的影响。本文提出了在同步更新机制下,通过采用分布式Horvovd框架与Tensorflow框架进行融合。将Horvovd分布式框架拆分成类似于客户服务端架构的结构,将单机版Tensorflow代码作为客户端,将剩余的分布式结构为基础进行二次开发,并将其封装成基于Horvovd为核心的分布式框架(Horvovd Framework for Distributed Tensorflow,HFDT)。HFDT框架作为服务端与作为客户端的单机版框架建立通信连接,通过调用单机版Tensorflow框架的模型结构、优化器、损失函数等结构并组成了可用于分布式训练的完整条件,进而实现了单机版Tensorflow训练代码快速实现分布式的训练。(3)本文对异构环境下的参数更新机制进行分析,发现异步更新会带来延迟,而高延迟的更新值对全局参数的影响是导致算法运行效率下降的主要原因。本文提出了一种新的动态延迟补偿异步随机梯度下降算法(DDC-ASGD),其根据每次带来的延迟大小可以动态地调节冲量项和延迟梯度项的可信度,降低了异步延迟带来的影响。通过相关实验证明,DDC-ASGD大大提高了模型的性能,解决了冲量延迟补偿算法(DC-ASGDK)受工作节点数量限制和缺乏动态调节延迟机制的两个问题,进一步地减少了延迟给异步并行带来的影响。相比ASGD和DC-ASGDK算法,DDC-ASGD在Fashion-mnist和cifar-10两类数据集上都取得了更高的准确率和更好的模型性能。
其他文献
室内分布系统可以改善室内的通信环境,提高通话质量,所以移动通信室内分布系统的设计至关重要,本文主要深入探讨了移动通信室内分布系统设计,希望能够为相关工作者提供借鉴。
国内非寿险市场70%以上都是车险业务,因此车险费率厘定的研究对于整个非寿险行业具有重要的理论及现实意义。索赔频率作为车险费率厘定的重要环节,在整个费率厘定过程中必不可少。一方面,传统车险索赔频率问题的研究主要基于广义线性模型,该方法忽略了解释变量之间的交互作用;另一方面,车联网时代的到来,使得历史索赔数据在传统从车、从人信息的基础上,增加了驾驶者行为数据,导致建模数据的维度及数量级产生了本质性提高
自最低工资制度实施以来,最低工资制度的就业效应就是学术界最富争议的研究主题之一。支持者认为最低工资制度对就业有正向作用,保护劳动者合法权益,缩小收入差距,提高企业生
从人类起源至现代社会的发展过程中,人的发展问题一直是人们不断探索和思考的焦点。当历史车轮将人类拖入21世纪,现代人发展呈现出的多样性和独特性,越来越备受关注,而与之相
目的:总结腹外疝手术治疗的护理经验。方法:对42例腹外疝手术治疗患者进行术前、术后护理和健康指导。结果:42例均痊愈出院,切口Ⅰ期愈合、未发生并发症,术后住院时间平均(9.82&#177
随着互联网的飞速发展以及智能手机的普及,对话系统的发展进入了重要的历史阶段。意图分类是自然语言理解(NLU)系统中的一项重要任务。本文从单轮对话句子级意图分类和多轮对话文档级意图分类的角度进行了进一步研究和探索。在单轮对话意图分类方面,近年来,一些模型开始联合处理意图分类和填槽任务。但是,大多数的联合模型需要大量人工标注的槽位数据样本。因此,本文提出了意图分类和命名实体识别的联合模型。本文使用工业
侵权救济制度是决定知识产权保护有效性的重要因素。专利侵权救济制度设计应坚持"责任规则优先",即损害赔偿救济优先于禁令救济。专利侵权损害赔偿救济的目标是充分补偿而非
<正>如何规避故意侵权造成的惩罚性赔偿?11月5日,国家主席习近平在首届中国国际进口博览会开幕式上发表主旨演讲,指出中国将保护外资企业合法权益,坚决依法惩处侵犯外商合法
2019年,国家电网公司提出了“三型两网、世界一流”的新时代战略目标,3月初,寇伟董事长在泛在电力物联网推进会上,就为什么、是什么、怎么干三个方面对建设泛在电力互联网提
根据皮尤研究中心(Pew Research Center)报告,约71%的美国青少年使用至少一种社交网站,60%平均每天在社交网站上花费约2小时。在中国,也有47.8%的青少年每天登陆社交网站。社