增强Q学习在非确定马尔可夫系统寻优问题中的应用

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：jpjxn

【摘要】

：

增强学习属于机器学习的一种，它通过与环境的交互获得策略的改进，其在线学习和自适应学习的特点使其成为解决策略寻优问题有力的工具。多智能体系统是人工智能领域的一个研究热

【作者】

：

郭锐彭军吴敏

【机构】

：

中南大学信息科学与工程学院

【出处】

：

计算机工程与应用

【发表日期】

：

2005年13期

【关键词】

：

多智能体增强学习非确定马尔可夫系统策略寻优 Multi-Agent Systems reinforcement learning nondetermini

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

增强学习属于机器学习的一种，它通过与环境的交互获得策略的改进，其在线学习和自适应学习的特点使其成为解决策略寻优问题有力的工具。多智能体系统是人工智能领域的一个研究热点，对于多智能体学习技术的研究需要建立在系统环境模型的基础之上，由于多个智能体的存在，智能体之间的相互影响使得多智能体系统高度复杂，多智能体系统环境属于非确定马尔可夫模型，因此直接把基于马尔可夫模型的增强学习技术引入多智能体系统是不合适的。论文基于智能体间独立的学习机制，提出了一种改进的多智能体Q学习算法，使其适用于非确定马尔可夫环境，并对该学

其他文献

一种基于椭圆曲线的有向门限群签名方案

有向门限群签名方案可以在同一个签名过程内完成有向签名和门限群签名，代价远小于对签名进行加密或进行交互式验证。提出了一种基于椭圆曲线的有向门限群签名方案，结合了改进的

期刊

椭圆曲线数字签名有向签名门限群签名elliptic curvedigital signaturedirected signaturethresho

统计分析指导下的排样系统

该文对排样零件进行统计预测分析，判断基于相似度定义的免疫算子的假设是否成立，由此指导相似度定义。实验表明良好的相似度定义可以提高排样速度。

期刊

排样免疫算子相似度统计分析packingimmune operatorsimilaritystatistic analysis

模块式小型堆硼反馈模拟方法研究

我国自主设计的一体化模块式小型堆（SMR）采用载硼方式运行,由于系统差异,堆芯内的硼输运及反馈过程,无法采用传统的核电厂系统分析程序THEMIS进行分析.文章对最佳估算系统程序R

期刊

硼反馈硼稀释模块式小型堆feedback of boron reactivity boron dilution small module reacto

增强Q学习在非确定马尔可夫系统寻优问题中的应用

其他学术论文