Q-学习相关论文
随着“中国制造2025”时间点的迫近,机器人的应用日益广泛,生产生活中随处可见机器人的身影。在生产工作中,机械臂周边的环境不仅......
复杂工业过程具有模型维数高、多时间尺度耦合、动态不确定性等特点,其运行优化控制(Operational optimal control, OOC)一直是控制......
为实现高超声速飞行器姿态自抗扰控制的参数整定,提出一种模糊Q-learning算法。首先,考虑采用强化学习中的Q-learning算法来实现姿态......
无线网络技术凭借着诸多优势,比如低成本、移动方便等,逐渐应用到工业系统中。同时也带来一些问题,例如,容易在数据传输的过程中发......
在将强化学习应用于实际问题时,遇到的困难之一是如何根据连续的传感器输入信号来构造合适的状态表达.提出了一种自动构造状态空间......
为了提高机动情况下空中拦截的能力,提出一种应用改进的Elman网络作为Q-网,进行强化学习的智能控制方法,通过计算机仿真实现了使用......
深度Q-学习算法常用于检测社会网络平台上的僵尸攻击。但是Q-学习算法的收敛慢。为此,提出基于深度Q-学习和粒子群优化的僵尸检测(......
针对软件定义网络(Software Defined Network,SDN)的负载均衡问题,为使网络的资源分配更加合理,防止网络拥塞,设计了一种基于Q-学......
温室控制是设施农业的关键技术,如何以最经济有效的方式控制温室环境达到满意效果,是温室技术的一个关键而又薄弱的技术环节.温室......
局部路径规划是水下机器人(AUV)导航任务中的难点。自适应性是AUV所必须具有的关键能力。强化学习被认为是获耳义未知环境下自主机......
随着世界经济的快速发展,交通需求量急剧膨胀,交通拥挤已经成为一个严重影响人们生活和社会发展的问题。建设高速公路是解决交通拥......
本文致力于用基于启发式学习+Q-学习的启发式Q-学习来解决在非合作泛和博弈框架下随机博弈的Nash均衡解的求解问题。决定一个有限......
完备信息博弈已经有很多比较成功的解决方案。博弈双方根据当前棋局创建一个部分的博弈树,利用估值函数对叶结点进行估值,通过估值......
为解决无线网状网中因多条路径同时传输数据而引起网络性能降低的问题,提出了一个基于流量的Q-学习路由与调度方案(QRST):针对每一......
强化学习是机器学习领域中的重要分支。强化学习通过与环境交互获得奖赏信号,使期望奖赏最大化,以获得最优策略。根据行为策略与目......
得益于微机电系统的飞速发展与日益成熟,智能传感器节点具有数据感知、无线通信、协同合作等功能,故可浸入式地获取网络覆盖范围内......
在对农田水利设施进行管理维护时,由于其公共品属性和农民个人理性,会采取搭便车策略,导致参与积极性不高.首先建立了农民参与农田......
控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称C......
强化学习一词来自于行为心理学,这门学科把行为学习看成反复试验的过程,从而把环境状态映射成相应的动作.在设计智能机器人过程中,如何......
探索与扩张是Q-学习算法中动作选取的关键问题,一味地扩张将使智能体很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,而......
当今电子商务发展非常迅速,已经逐步形成了一个潜力巨大的市场。随着Internet上信息量和商务量爆炸式增长、网络环境日益复杂,以及产......
提出了一种综合了模块化结构、利益分配学习以及对手建模技术的多agent强化学习方法,利用模块化学习结构来克服状态空间的维数灾问......
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.但是,强化学习一直被......
提出了一种多Agent并行Q-学习算法. 学习系统中存在多个Agent, 它们的学习环境、学习任务及自身功能均相同. 在每个学习周期内, 各......
采用面向对象思想构造了既有继承性、封装性,又具有智能性、自主性的智能主体Agent。结合MAS(Multi-AgentSystem)的群体智能性和博......
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行......
基本Q-学习算法总是利用当前最优策略进行动作的选取,这样容易陷入局部最优。文章在模拟退火强化学习基础上提出了基于探索区域扩......
探索与扩张是Q-学习算法中动作选取的索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能.通过把Q-学习中寻求最优策略表......
期刊
CGF中的战场决策仿真十分复杂,要求CGF实体应能根据知识库做出类似人类的决策行为.目前,CGF系统中的决策模块大多是硬编码的,不能......
针对多Agent协作强化学习中存在的行为和状态维数灾问题,以及行为选择上存在多个均衡解,为了收敛到最佳均衡解需要搜索策略空间和......
为了强化合同网机制对于分布式调度的学习能力,提出了一种将基本合同网与Q-学习集成的适应性协商机制。运用统一建模语言序列图描......
提出了一种利用Q-学习解决动态单机调度环境下的自适应调度规则选择的方法。该方法针对动态调度环境中系统状态空间大,Q-学习不易收......
该文提出了一个针对轿车市场中交易协商的双边多议题自动协商模型,该模型具有如下特点:用基于效用的相似度比较法实现Agent智能搜索;......
为了减少车辆通过路口的延误,采用云模型建立控制策略,运用Q-学习改进控制模型的参数.路口信号控制智能体通过感知系统获得车辆到达信......
相关反馈实现了人机交互,是图像检索中的不可缺少的部分,一般图像检索中都使用一种反馈算法。IRRL模型将机器学习中的强化学习原理应......
针对多agent系统强化学习中,状态空间和动作空间随着agent个数的增加成指数倍增长,进而导致维数灾难、学习速度慢和收敛性差的问题,提......
为提高汽车的行驶平顺性和转向稳定性,用Matlab/simulink平台建立了SAS(半主动悬架)与EPS(电动助力转向)的集成模型,并与Carsim整车动力学......
提出了一种综合了模块化结构、利益分配学习以及对手建模技术的多agent强化学习方法,利用模块化学习结构来克服状态空间的维数灾问......
强化学习使agent具有在线自主学习能力,该文介绍了MDP模型下的自适应动态规划、时序差分学习、Q-学习等几种典型agent强化学习方法,......
针对动态环境下强化学习对未知动作的探索和已知最优动作的利用之间难以平衡的问题,提出了一种数据驱动Q-学习算法.该算法首先构建智......
认知无线电能有效实现频谱资源的再利用,是当前通信研究领域的热点之一.如何进行频谱的合理分配是实现认知无线电网络有效运作的关......
给出了一种新的激励学习(RL)方法,它能够有效地解决一个状态与动作空间为连续的非线性控制问题.在实际的应用中,离散的RL方法能把......
强化学习一词出自行为心理学,这门学科把学习看作为反复试验的过程,以便把环境的状态映射为动作。强化学习的这种特性必须增加智能系......
文章介绍了加强学习模型,分别给出了加强学习的四个主要算法:动态规划、蒙特卡罗算法、时序差分算法、Q-学习,并指出了它们之间的区别......
针对多Agent协作强化学习中存在的行为和状态维数灾问题,以及行为选择上存在多个均衡解,为了收敛到最佳均衡解需要搜索策略空间和......
针对RoboCup(Robot World Cup)中,多Agent之间的配合策略问题,采用了一种局部合作的多Agent Q-学习方法:通过细分球场区域和Agent回报值......
针对现有交通信号控制系统的诸多不足,提出了一种用于交通信号控制的两层递阶多Agent系统解决方案。通过将交通网络进行区域划分,利......