多种决策机制下一类多智能体系统协同控制问题研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:JK0803_fanti
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着网络化系统和智能控制理论研究的不断深入,多智能体系统协同控制方法在多机器人系统、传感器网络等领域展现出广泛的应用前景。同时,在信息技术快速发展的时代背景下,系统复杂度和需求多样性不断增加,单一个体的智能化水平日益提高,个体在采取行动时通常会考虑自身利益,其中个体利己行为通常可以用个体性能指标来刻画。本文中,我们考虑个体具有利己行为的一类多智能体系统。显然,在这类系统中,个体的利己行为并不能够总是实现协同目标。因此,如何协调个体利益与协同目标之间的关系,是多智能体系统协同控制需要解决的难点问题。除个体利己行为外,个体间通信网络结构是影响多智能体系统协同行为的另外一重要因素。在不同的网络结构下,利己个体间呈现出不同的交互关系与决策行为。博弈论被广泛用来刻画与分析多智能体系统中个体间利益冲突与均衡;然而,现有工作大多考虑简单的交互环境,基于传统的博弈理论刻画具有平等地位的少量个体之间的交互机制,缺乏对复杂交互场景的深入且系统的探究。为此,本文从不同的网络结构下的交互与决策机制入手,按照网络结构复杂性层次递进的原则,针对个体具有利己行为的一类多智能体系统,开展了几种决策机制下的协同控制问题研究。首先从同时决策机制出发,考虑所有个体处于平等的地位,在互不知晓其他个体响应的情况下同时做出决策;进一步,考虑系统中存在优先决策个体,研究顺序决策机制下具有非对称交互的多智能体系统协同控制问题;最后,考虑个体间交互关系更加复杂的大规模系统,研究大群体决策机制下的协同控制问题。具体工作与创新点如下:1)针对同时决策机制下输入饱和限制带来的非线性挑战,以及系统动力学模型未知带来的控制器设计难点问题,设计了融合协同目标与个体输入饱和限制的个体成本函数,在非合作博弈框架下建立了同步控制策略与Nash均衡策略间的关系,提出了一种无模型off-policy策略迭代算法,解决了系统动力学信息未知情况下的同步控制策略设计问题。进一步,放松了无模型控制算法对探测噪声的依赖性,从原始-对偶优化角度提出了一种不基于模型的控制算法。该算法在高维系统中具有较好的控制效果,并为经典策略迭代算法提供了一种新颖的原始-对偶优化角度的解释。2)针对顺序决策机制下个体间非对称交互关系带来的挑战,以及求解均衡策略的强化学习算法依赖于稳定的初始策略这一限制,研究了多输入动态系统的顺序决策问题及Stackelberg-Nash博弈均衡点求解问题,并将顺序决策机制引入到多智能体系统同步控制问题中,巧妙地设计了融合个体地位和协同任务的个体成本函数,建立了综合考虑同时决策与顺序决策机制的博弈模型,分析了均衡策略的唯一性和稳定性,提出了保迭代策略稳定的强化学习算法,解决了在系统模型部分已知/完全未知情况下多智能体系统分层同步控制问题。3)针对大群体决策机制下大规模系统中异质个体间的交互关系复杂且不明确带来的挑战,基于平均场博弈将个体间的复杂交互关系近似等价为个体与群体之间的交互,设计了非凸且非光滑的个体激励函数,发展了基于抽象不动点定理的分散式均衡策略分析与求解方法。该方法的复杂度不受系统规模增大的影响,所设计的控制率在个体数量趋于无穷时达到平均场博弈的Nash均衡,克服了大规模系统中异质个体利益与协同任务失衡的难题,实现了大规模系统的动态协同。
其他文献
氮化镓(GaN)作为一种直接宽带隙(3.4 eV)的半导体材料,具有极高的化学稳定性和热稳定性,在高温高功率射频器件和光电元器件方面具有很大的应用价值。相比于GaN块体和薄膜材料,一维GaN纳米线具有较大的长径比,为电子的传输提供了定向传输通道,使载流子的传输能力大大提高。同时,相比于杂乱生长的氮化镓纳米线,具有极高阵列度的一维GaN纳米线垂直阵列更具使用价值。一方面,在合适的衬底上外延生长的氮化
催化在化工、能源和环境领域中起着举足轻重的作用。我们需要在原子和分子层面上理解催化剂表面化学,即催化剂构-效关系和催化反应机理,进而指导高效催化剂的设计。二氧化铈在多相催化中具有广泛的应用,而氧缺陷是影响二氧化铈催化性能的重要结构因素。本博士学位论文较系统地研究了氧缺陷对二氧化铈催化表面化学的调控作用。取得的主要研究结果如下:(1)利用(准)原位谱学技术研究了不同温度下氢气与二氧化铈的相互作用。观
《简·爱》的作者夏洛蒂·勃朗特小姐在小说中以多种描写角度和写作技巧将主人公简·爱的成长环境和人物性格呈现出来,通过描写简·爱的生活环境和人物反映当时英国的一些社会现状,小说中的各个人物形象性格鲜明,故事情节的发展跌宕起伏,能将主人公简·爱的成长环境和人物形象很深刻地刻画出来。
铜合金因优良的耐海水腐蚀性能、抗海洋生物污损性能、综合力学性能及加工性能而成为现役海洋材料的主力军之一。然而,由于海洋腐蚀环境的苛刻性,服役过程中铜合金部件的腐蚀失效时有发生,造成舰船在航率降低及维修成本升高,甚至威胁到装备的安全性。铜合金的耐蚀性与其组织结构密切相关,通过适当工艺来调控微观组织是改善其耐蚀性的重要途径,也是当下材料领域的研究热点,这首先需要明确铜合金微观组织特征与腐蚀行为之间的关
气态亚硝酸(HONO)通过光解生成OH自由基影响对流层大气氧化能力,在对流层大气光化学中扮演着重要角色。然而,目前对于HONO生成机制的认识不全,部分实验室研究提出的新的HONO生成机制如土壤HONO排放等缺乏外场观测数据的验证,对于夜间NO2非均相反应表面(地表面/气溶胶表面)和日间HONO来源问题存在争议,梯度及通量的测量对于解释HONO形成机制和源汇研究具有重要意义。针对外场HONO梯度及通
引力透镜效应指背景天体发出的光线在前景天体引力场作用下发生偏折从而产生多重像、形状改变、流量变化的现象。“微引力透镜”这个术语在1986年开始被使用,指恒星级致密天体的引力透镜效应。微引力透镜在测量类星体吸积盘尺寸、限制星系中暗物质致密天体比重、探测太阳系外行星等方面发挥了重要作用,已经成为天体物理研究中强大的工具。快速射电暴(Fast Radio Burst,FRB)是近年来发现的持续时间在毫秒
反应堆堆芯中子场的中子分布情况与反应堆经济性和安全性息息相关。由于反应堆堆芯运行环境以及反应堆堆型设计的限制,导致部分情况下无法使用堆芯内探测器进行中子场的监测。因此,基于堆芯外探测器数据重构堆内中子场成为反应堆堆芯中子场监测领域发展的趋势。本文基于堆芯外探测器的空间响应原理,利用神经网络技术,开展了基于堆芯外探测器重构堆芯中子场的相关方法研究。本文主要研究内容、结果和创新之处如下:(1)提出了基
斯格明子是涡旋状局域磁结构,具有小尺寸和易于电操控等特点。近年来,斯格明子被认为是具有潜力的信息载体,被提出用来构建多种磁信息功能器件,得到了科学家们的广泛关注。斯格明子的稳定的物理机制主要包括非中心对称手性磁体中的Dzyaloshinskii-Moriya相互作用与中心对称单轴铁磁体中的垂直磁各向异性。传统的中心对称单轴铁磁体中存在拓扑非平庸的一类磁泡和拓扑平庸的二类磁泡,其中第一类磁泡的拓扑性
金属卤化物钙钛矿(MHPs)因具有优异的光电性质成为了材料科学领域中的热点研究对象。由于其光谱可调、荧光量子产率(PLQY)高、吸收光谱范围宽、载流子扩散长度长等特点,MHPs在发光二极管和太阳能电池等方面具有广阔的应用前景。除此之外,MHPs在防伪、激光器、传感与探测以及光催化等领域也有着巨大的应用潜力。探索MHPs的新应用成为了新的目标与挑战。为了实现这一目标,可通过内源性的改变晶体结构或外源
纳米酶克服了天然酶易失活、成本高、可回收性差等缺点,因此非常有希望替代天然酶来用于催化反应。虽然纳米酶在多个领域展现出巨大的应用潜力,但是经过十多年的发展,纳米酶的种类依然局限于氧化还原酶类和水解酶类。另外,由于目前对纳米酶的催化机理缺乏深入的认识,导致缺乏理论指导用于设计新型的纳米酶。现阶段设计新型的材料往往需要不断的尝试,耗时耗力,科研效率极低。为解决以上问题,我们基于催化剂的结构决定其催化性