Q-学习相关硕士博士期刊学术论文

Q-学习相关论文

基于粒子群算法的机械臂轨迹规划研究

随着“中国制造2025”时间点的迫近,机器人的应用日益广泛,生产生活中随处可见机器人的身影。在生产工作中,机械臂周边的环境不仅......

学位

机械臂路径规划轨迹规划粒子群 Q-学习

复杂工业过程非串级双速率组合分散运行优化控制

复杂工业过程具有模型维数高、多时间尺度耦合、动态不确定性等特点,其运行优化控制（Operational optimal control, OOC）一直是控制......

期刊

复杂工业过程运行优化控制奇异摄动理论 Q-学习双速率

基于Q-learning的高超声速飞行器自抗扰控制研究

为实现高超声速飞行器姿态自抗扰控制的参数整定，提出一种模糊Q-learning算法。首先，考虑采用强化学习中的Q-learning算法来实现姿态......

期刊

高超声速飞行器姿态控制自抗扰控制 Q-学习参数整定

基于增强学习的网络丢包环境下混合选别过程运行反馈控制

无线网络技术凭借着诸多优势,比如低成本、移动方便等,逐渐应用到工业系统中。同时也带来一些问题,例如,容易在数据传输的过程中发......

学位

混合选别过程增强学习 Q-学习输出调节 off-policy算法

基于机器学习的无线网络智能路由算法研究

近年来,随着网络应用的迅猛增长,无线自组织网络中的路由协议应该增强自适应性,要既能够满足业务的传输需求,也要降低路由机制的复......

学位

增强学习 Q-学习路由深度学习卷积神经网络

基于决策树的强化学习算法

在将强化学习应用于实际问题时,遇到的困难之一是如何根据连续的传感器输入信号来构造合适的状态表达.提出了一种自动构造状态空间......

会议

强化学习 Q-学习决策树变分辨率划分离散化处理状态分类树

一种应用Elman型回归网络的Q-学习

为了提高机动情况下空中拦截的能力,提出一种应用改进的Elman网络作为Q-网,进行强化学习的智能控制方法,通过计算机仿真实现了使用......

会议

Elman网络 Q-学习强化学习微分对策智能控制

基于深度Q-学习和粒子群优化的僵尸检测算法

深度Q-学习算法常用于检测社会网络平台上的僵尸攻击。但是Q-学习算法的收敛慢。为此,提出基于深度Q-学习和粒子群优化的僵尸检测(......

期刊

Q-学习粒子群僵尸准确率重回率

软件定义网络中基于Q-学习的负载均衡算法

针对软件定义网络(Software Defined Network,SDN)的负载均衡问题,为使网络的资源分配更加合理,防止网络拥塞,设计了一种基于Q-学......

期刊

软件定义网络强化学习 Q-学习负载均衡

基于自适应Q-学习的宽带频谱检测

认知无线电是一种能自动感知周围环境并检测到空闲频谱的新技术，快速和准确的检测到频谱空穴技术是目前研究的一个热点。由于实际环......

学位

认知无线电频谱检测自适应协同Q-学习分簇

不确定环境的优化控制算法的研究与应用

温室控制是设施农业的关键技术,如何以最经济有效的方式控制温室环境达到满意效果,是温室技术的一个关键而又薄弱的技术环节.温室......

学位

Q-学习温室环境控制

Q-learning研究及其在AUV局部路径规划中的应用

局部路径规划是水下机器人(AUV)导航任务中的难点。自适应性是AUV所必须具有的关键能力。强化学习被认为是获耳义未知环境下自主机......

学位

强化学习 Q-学习 SARSA(λ)算法 CMAC 神经网络 AUV 局部路径规划

基于多Agent的高速公路入口匝道控制的研究

随着世界经济的快速发展,交通需求量急剧膨胀,交通拥挤已经成为一个严重影响人们生活和社会发展的问题。建设高速公路是解决交通拥......

学位

多Agent技术高速公路入口匝道控制合同网协议 Q-学习

求解随机博弈的启发式强化学习研究

本文致力于用基于启发式学习+Q-学习的启发式Q-学习来解决在非合作泛和博弈框架下随机博弈的Nash均衡解的求解问题。决定一个有限......

学位

启发式强化学习 Q-学习随机博弈 Nash均衡解

Q-学习在非完备信息机器博弈中的应用

完备信息博弈已经有很多比较成功的解决方案。博弈双方根据当前棋局创建一个部分的博弈树,利用估值函数对叶结点进行估值,通过估值......

学位

Q-学习非完备信息博弈时序差分预测模拟退火

基于流量模式的Q-学习路由及其连接调度

为解决无线网状网中因多条路径同时传输数据而引起网络性能降低的问题,提出了一个基于流量的Q-学习路由与调度方案(QRST):针对每一......

期刊

无线网状网路由强化学习 Q-学习多并发流

校正最大化偏差的异策略强化学习方法研究

强化学习是机器学习领域中的重要分支。强化学习通过与环境交互获得奖赏信号,使期望奖赏最大化,以获得最优策略。根据行为策略与目......

学位

强化学习异策略 Q-学习最大化偏差

基于强化学习的无线传感器网络节点休眠调度策略研究

得益于微机电系统的飞速发展与日益成熟,智能传感器节点具有数据感知、无线通信、协同合作等功能,故可浸入式地获取网络覆盖范围内......

学位

无线传感器网络休眠调度马尔科夫决策过程强化学习 Q-学习

基于强化学习的农田水利设施管理进化博弈分析

在对农田水利设施进行管理维护时,由于其公共品属性和农民个人理性,会采取搭便车策略,导致参与积极性不高.首先建立了农民参与农田......

期刊

农田水利设施进化博弈分析 Q-学习进化博弈理论合作策略学习功能转移概率仿真实验合作行为农村水利设施

互联电网CPS调节指令动态最优分配Q-学习算法

控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称C......

期刊

Q-学习随机最优离散时间马尔可夫决策过程控制性能标准自动发电控制

Q-学习及其在智能机器人局部路径规划中的应用研究

强化学习一词来自于行为心理学，这门学科把行为学习看成反复试验的过程，从而把环境状态映射成相应的动作．在设计智能机器人过程中，如何......

期刊

智能机器人局部路径规划学习规则神经网络学习机器人系统未知环境 Q-学习非监督学习应用研究环境模型

基于Metropolis准则的Q-学习算法研究

探索与扩张是Q-学习算法中动作选取的关键问题,一味地扩张将使智能体很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,而......

期刊

Metropolis 算法复杂性智能体学习过程模拟退火 Q-学习加强学习局部最优组合优化最优策略

MAS中的自治协商模型优化研究

当今电子商务发展非常迅速，已经逐步形成了一个潜力巨大的市场。随着Internet上信息量和商务量爆炸式增长、网络环境日益复杂，以及产......

学位

Agent Q-学习分层强化学习自治协商模型僵局消解

一种新颖的多agent强化学习方法

提出了一种综合了模块化结构、利益分配学习以及对手建模技术的多agent强化学习方法,利用模块化学习结构来克服状态空间的维数灾问......

期刊

多agent学习 Q-学习利益分配学习模块化结构对手建模

分层强化学习研究综述

强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.但是,强化学习一直被......

期刊

分层强化学习半马氏过程 Q-学习多智能体系统

基于多Agent的并行Q-学习算法

提出了一种多Agent并行Q-学习算法. 学习系统中存在多个Agent, 它们的学习环境、学习任务及自身功能均相同. 在每个学习周期内, 各......

期刊

强化学习 Q-学习融合

Q-学习在多智能体博弈系统中的应用

采用面向对象思想构造了既有继承性、封装性,又具有智能性、自主性的智能主体Agent。结合MAS(Multi-AgentSystem)的群体智能性和博......

期刊

Agent MAS 博弈博弈矩阵 Q-学习

激励学习的广义平均算法及其收敛性

一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行......

期刊

激励学习广义平均 Markov 决策过程 Q-学习

基于改进Q-学习的导航知识获取算法研究

基本Q-学习算法总是利用当前最优策略进行动作的选取,这样容易陷入局部最优。文章在模拟退火强化学习基础上提出了基于探索区域扩......

期刊

强化学习 Q-学习探索区域扩张模拟退火神经网络

面向语言评价的Takagi-Sugeno模糊再励学习

综合考虑再励学习的两个重要子问题 :连续空间及语言评价问题 ,提出了一种新的学习方法 ,即面向语言评价的 Takagi-Sugeno(T-S)模......

期刊

再励学习语言评价 T-S模糊推理系统神经-模糊控制函数逼近 Q-学习模糊数

基于MetrOPOlis准则的Q-学习算法研究

探索与扩张是Q-学习算法中动作选取的索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能.通过把Q-学习中寻求最优策略表......

期刊

加强学习 Q-学习 Metropolis准则探索扩张

Q-学习算法在CGF系统中的应用

CGF中的战场决策仿真十分复杂,要求CGF实体应能根据知识库做出类似人类的决策行为.目前,CGF系统中的决策模块大多是硬编码的,不能......

期刊

Q-学习增强学习 CGF 战场决策仿真机器学习

基于量子理论及蚁群算法的多Agent Q学习

针对多Agent协作强化学习中存在的行为和状态维数灾问题,以及行为选择上存在多个均衡解,为了收敛到最佳均衡解需要搜索策略空间和......

期刊

多Agent系统协作量子计算 Q-学习均衡解蚁群算法 multi-Agent system cooperative quantum computin

面向制造任务动态分配的改进合同网机制

为了强化合同网机制对于分布式调度的学习能力,提出了一种将基本合同网与Q-学习集成的适应性协商机制。运用统一建模语言序列图描......

期刊

Q-学习合同网机制基于Agent的制造调度柔性制造系统柔性作业车间调度问题 Q-learning contract net protocol Age

基于聚类状态隶属度的动态调度Q-学习

提出了一种利用Q-学习解决动态单机调度环境下的自适应调度规则选择的方法。该方法针对动态调度环境中系统状态空间大，Q-学习不易收......

期刊

动态调度 Q-学习调度规则选择状态聚类隶属度 dynamic scheduling Q-learning dispatching rule selec

一个基于Agent的轿车市场自动协商模型

该文提出了一个针对轿车市场中交易协商的双边多议题自动协商模型，该模型具有如下特点：用基于效用的相似度比较法实现Agent智能搜索；......

期刊

自动协商历史学习 Q-学习 automated negotiation history learning Q-learning

基于云模型的交通信号自学习控制方法

为了减少车辆通过路口的延误，采用云模型建立控制策略，运用Q-学习改进控制模型的参数．路口信号控制智能体通过感知系统获得车辆到达信......

期刊

云模型交通信号控制前件云发生器 Q-学习 cloud model traffic signal control forward cloud genera

图像检索中IRRL模型研究

相关反馈实现了人机交互，是图像检索中的不可缺少的部分，一般图像检索中都使用一种反馈算法。IRRL模型将机器学习中的强化学习原理应......

期刊

强化学习 Q-学习相关反馈图像检索 IRRL模型 reinforcement learning Q_learning relevance feedbac

利用聚类分析法改进的多Agent协作强化学习方法

针对多agent系统强化学习中，状态空间和动作空间随着agent个数的增加成指数倍增长，进而导致维数灾难、学习速度慢和收敛性差的问题，提......

期刊

多AGENT协作强化学习聚类分析 Friend-or-Foe Q-学习 multi-agent cooperation reinforcement lea

基于Q-学习算法的SAS与EPS协调控制仿真研究

为提高汽车的行驶平顺性和转向稳定性，用Matlab／simulink平台建立了SAS（半主动悬架）与EPS（电动助力转向）的集成模型，并与Carsim整车动力学......

期刊

Q-学习半主动悬架电动助力转向协调控制 Q--learning SAS EPS coordination control

一种新颖的多agent强化学习方法

提出了一种综合了模块化结构、利益分配学习以及对手建模技术的多agent强化学习方法，利用模块化学习结构来克服状态空间的维数灾问......

期刊

多AGENT学习 Q-学习利益分配学习模块化结构对手建模 multi-agent learning Q-learning profit-sharing

几种agent强化学习方法的比较研究

强化学习使agent具有在线自主学习能力，该文介绍了MDP模型下的自适应动态规划、时序差分学习、Q-学习等几种典型agent强化学习方法，......

期刊

MDP 自适应动态规划时序差分学习 Q-学习 MDP Adaptive Dynamic Programming TD Learning Q-Learni

动态环境下数据驱动Q-学习算法

针对动态环境下强化学习对未知动作的探索和已知最优动作的利用之间难以平衡的问题，提出了一种数据驱动Q-学习算法．该算法首先构建智......

期刊

强化学习数据驱动 Q-学习不确定性 reinforcement learning data-driving Q-learning uncerta

基于Q-学习自适应蚁群算法的CR电频谱分配

认知无线电能有效实现频谱资源的再利用,是当前通信研究领域的热点之一.如何进行频谱的合理分配是实现认知无线电网络有效运作的关......

期刊

认知无线电频谱分配蚁群算法 Q-学习 cognitive radio spectrum allocation ant colony optimizati

基于Q—学习的非线性控制

给出了一种新的激励学习(RL)方法,它能够有效地解决一个状态与动作空间为连续的非线性控制问题.在实际的应用中,离散的RL方法能把......

期刊

激励学习(RL) 马尔科夫决策过程(MDP) Q-学习非线性控制局部线性控制器 reinforcement learning(RL) Markov dec

提高强化学习速度的方法研究

强化学习一词出自行为心理学，这门学科把学习看作为反复试验的过程，以便把环境的状态映射为动作。强化学习的这种特性必须增加智能系......

期刊

强化学习机器学习 Q-学习自适应启发评价方法学习速度 Reinforcementlearning Machine Learning Q-learning

加强学习主要算法的比较研究

文章介绍了加强学习模型，分别给出了加强学习的四个主要算法：动态规划、蒙特卡罗算法、时序差分算法、Q－学习，并指出了它们之间的区别......

期刊

加强学习蒙特卡罗算法时序差分算法 Q-学习机器学习人工智能 Reinforcementlearning Dynamic programming mont

基于量子计算的多Agent协作学习算法

针对多Agent协作强化学习中存在的行为和状态维数灾问题,以及行为选择上存在多个均衡解,为了收敛到最佳均衡解需要搜索策略空间和......

期刊

多AGENT系统协作量子计算 Q-学习均衡解 multi-agent system cooperative quantum computing Q-lea

基于多Agent Q学习的RoboCup局部配合策略

针对RoboCup（Robot World Cup）中，多Agent之间的配合策略问题，采用了一种局部合作的多Agent Q-学习方法：通过细分球场区域和Agent回报值......

期刊

随机对策 Q-学习实时性局部合作 RoboCup仿真2D 配合策略 stochastic game Q-learning real-time regi

面向交通信号的两层递阶控制解决方案

针对现有交通信号控制系统的诸多不足，提出了一种用于交通信号控制的两层递阶多Agent系统解决方案。通过将交通网络进行区域划分，利......

期刊

多AGENT系统递阶控制交通信号 Q-学习 Tile Coding multi-Agent systems hierarchical control tra

看过本文同时还关注