基于异步方法的强化学习研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:xiqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种重要的机器学习方法。强化学习基于动物心理学的相关原理,采取了人类和动物学习中的“尝试与失败”机制,强调在与环境的交互中学习,利用评价性的反馈信息实现决策的优化。基于异步方法的强化学习是一种最近流行起来的强化学习方法,它采取了不同的智能体并行探索环境的方法,每个智能体独自探索并在线更新全局策略参数。通过这种方法,缓解了传统强化学习算法收敛缓慢、容易陷入局部极小的问题。但是,在面对离散状态空间的问题时,现有的异步强化学习算法没有能够与基于模型的方法很好地结合在一起,这导致其收敛精度受到一定限制。同时,其收敛速度仍需进一步提高。此外,在面对连续状态空间的问题时,通常采用神经网络与强化学习相结合的方法,各个智能体向全局线程推送梯度信息,全局线程需要利用各个智能体推送的信息进行更新。但是,现有的异步强化学习算法不能很好地区分不同智能体推送的更新的价值,导致其收敛速度受到了一定的限制。本文从异步强化学习算法的学习方式入手,结合多种手段,改进异步强化学习算法,提高算法的收敛速度与收敛精度。本文的主要研究内容如下:1.研究了基于模型的异步强化学习算法。在面对离散状态空间的问题时,为了使智能体充分利用探索到的信息进行异步更新,本文将基于模型的方法引入到异步强化学习算法中,提出了异步Dyna-Q算法。异步Dyna-Q算法将智能体分为探索者与学习者两种,探索者对环境进行探索,在探索的同时更新自己的参数,并将探索到的经验存储到经验池当中;学习者根据探索者探索到的经验,对全局参数进行更新,并以此来指导探索者的下一步探索。同时,为了提高算法的收敛速度与收敛精度,本文对异步Dyna-Q算法进行改进,将分阶方法引入到异步Dyna-Q算法当中,提出了异步分阶Dyna-Q算法。异步分阶Dyna-Q算法将智能体学习的过程划分为不同阶段,并使它们在不同阶段执行不同的学习策略,通过这种方式,来使智能体充分利用探索到的知识来进行参数的更新。实验结果表明,本文提出的异步Dyna-Q算法与异步分阶Dyna-Q算法是有效的,较传统强化学习算法与现有的异步强化学习算法能够极大地提升算法的收敛速度与收敛精度。2.研究了基于改进框架的异步强化学习算法。现有的异步强化学习算法可以解决离散空间的强化学习问题,但它也存在一些问题。首先,在现有的异步强化学习算法中,全局线程仅用于更新参数,其信息未被充分利用。同时,不同线程之间的通信方式仍需进一步改进,需要通过不同的线程之间的信息交互来提高算法的收敛速度。基于以上考虑,本文提出一种针对离散空间问题的通用异步强化学习框架,通过该框架,能够使异步强化学习算法高效求解离散状态空间问题,提高收敛性能。本文将该框架与四种异步强化学习算法——异步Q学习算法、异步Sarsa算法、异步Sarsa(λ)算法、异步分阶Dyna-Q算法相结合,提出四种高效的异步强化学习算法,并通过仿真实验验证了所提出算法的有效性。3.研究了基于动态权值的异步强化学习算法。在现有的异步强化学习算法中,当每个线程将更新推送到全局线程时,采用的是统一的学习速率,并没有考虑每次更新时不同线程传输的信息的差异。当单个智能体对全局线程推送的更新偏向于失败信息时,其对学习系统的参数更新没有明显的帮助。所以,本文将动态权值引入了异步强化学习算法,提出了基于动态权值的异步优势行动者-评论家算法。基于动态权值的异步优势行动者-评论家算法充分考虑到不同线程之间的学习状态,根据单个智能体向全局线程推送的内容的不同,能够动态更新其权值,使得算法的收敛效率和收敛性能均有显著提高。实验结果表明,本文提出的基于动态权值的异步优势行动者-评论家算法是有效的,较传统强化学习算法与现有的异步强化学习算法能够提升算法的收敛速度与收敛精度。
其他文献
随着生活水平的提高,居民饲养宠物犬的数量越来越大,部分地区甚至出现“犬多为患”的问题,对疫病防控和环境污染皆构成极大威胁。尤其是全国各地相继出现犬伤人致人患狂犬病死亡
人力资源在企业发展过程中起着至关重要的作用,现阶段的人力资源管理正向着人力资本管理的方向转变,如何科学评价人力资源价值,体现公平性,从而激发员工的创造力、调动员工的
文章从传统教学方法和其技术分析对羽毛球正手击高远球进行探讨,发现了影响正手击高远球技术学习的重要因素,为中小学羽毛球技术的教学提供参考。
目的分析饮食及生活护理干预对糖尿病患者血糖控制的影响。方法选择本院2015年1月23日-2016年1月23日收治的102例糖尿病患者,分为常规组与实验组两组,其中对常规组采取一般护
液压系统管路振动是影响系统稳定的主要问题之一,通过对5 m厚板精轧机液压伺服系统主回油管路振动改造前后的管路振动测量分析和验证,提出在解决液压系统振动问题上检测管路
异材对用户满意度产生严重影响,大幅度降低了产品品牌美誉度。没有异材是一种产品的基本质量要求。通过运用FMEA工具,研究了钢厂薄板生产过程中异材的不同潜在失效模式与失效
随着互联网和企业信息化的发展,企业拥有众多应用系统,迫使企业急需在信息化建设中进行信息集成。传统的重量级门户遵循JSR168规范,开发周期长,速度响应慢,无法支持互联网下
目的 :探讨实施彩色多普勒超声检查在诊断原发性肝癌中的临床价值。方法 :选取邢台市中医院在2014年1月至2015年1月期间收治的43例原发性肝癌患者作为研究对象。对这43例患者均
1957年,美国Popper等[1]较早报道了胆管反应(DR),其特征是肝脏损伤诱导的反应性胆管增生。因胆管反应性病变不仅可由先前存在的胆管细胞产生,也可来自于肝细胞的胆管化生或活
研究了热镀锌双相钢的应变硬化特性,以及微观组织形态、锌层结构、拉伸条件等因素对应变硬化特性的影响。结果表明,典型的热镀锌双相钢拉伸曲线具有明显的阶段性。随着双相钢