论文部分内容阅读
多无人机(Unmanned Aerial Vehicle,UAV)协同跟踪多目标是无人机协同决策领域的一个重要研究方向,在军民领域有广泛的应用需求和重要的理论意义。本文以多无人机协同对地侦察为背景,针对部分可观条件下多固定翼无人机跟踪多个地面移动目标的协同行为决策问题,以信息几何为基础,开展系统性的问题建模、算法设计和求解优化研究,主要工作及贡献如下:(1)针对多无人机协同目标跟踪问题的特点,深入分析并构建了基于DecPOMDPs(Decentralized Partially Observable Markov Decision Processes)的多无人机协同目标跟踪决策过程的建模和求解框架;该模型将状态的不确定性、部分可观性纳入统一的决策框架,具有较好的适应性。从多无人机协同目标侦察任务出发,分析了感知和通信能力有限的多无人机系统状态不确定、部分可观的特点,给出了部分可观条件下多无人机协同跟踪多目标行为决策问题的定义。通过对单无人机目标跟踪决策问题的分析,构建POMDPs决策模型,综合考虑机载传感器观测模型的特点和在线决策实时性的要求,提出了基于Fisher信息量的回报函数设计方法;将单机决策过程扩展到多无人机协同目标跟踪决策问题的建模和求解上,基于Dec-POMDPs构建多无人机协同目标跟踪行为决策模型。(2)针对多无人机系统中感知信息不一致的问题,提出了基于最大一致性协议的分布式信息融合估计方法,分析并证明了算法的收敛性;该方法可以利用局部信息交换快速实现整体信息的一致性。在多无人机目标跟踪问题中,融合多个无人机对目标的观测信息,获得准确且一致的目标状态估计是优化无人机协同策略的基础。由于多无人机目标跟踪系统中无人机通信距离有限、机载传感器观测范围有限,为解决分布式融合估计中的信息一致性问题,本文以卡尔曼滤波为基础,提出了一种分布式最大一致性信息融合算法,分析了为确保信息达到一致性局部信息交换次数的下界。仿真结果表明该算法易扩展、能够自适应通信拓扑变换,而且能够减少通信次数的冗余。(3)针对模型已知的多无人机协同决策问题,基于动态规划方法,提出了单无人机序贯动作近似求解方法和多无人机协同行为策略分布式求解方法,有效提高了近似最优跟踪策略的求解速度。针对单无人机目标跟踪决策问题,提出基于NBO(Nominal Belief-state Optimization)算法的滚动时域近似求解方法并证明了方法的稳定性。针对Dec-POMDPs框架下多无人机最优策略难以求解的问题特性,以Fisher信息矩阵的行列式为目标函数建立多无人机行为策略分布式评价模型,提出了基于KM(Kuhn-Munkres)算法的分布式协同行为策略求解方法,仿真实验表明本文提出的方法跟踪性能优于分散式方法,并且接近理论上最优的集中式方法;同时本文的分布式方法具有更好的可扩展性和更高的计算效率。(4)针对无模型多无人机目标跟踪决策问题,用自然梯度代替常规梯度,提出了无人机目标跟踪强化学习方法,提高了学习的收敛性;并在此基础上提出了多无人机中心化Critic学习方法和完全分布式学习方法,解决多无人机协同学习过程中策略评价不稳定的问题。基于信息几何中的Fisher信息度量,利用自然梯度代替TC-AC(Temporal Difference Actor-Critic)算法中的常规梯度,提高了强化学习的效率。针对多无人机强化学习过程中策略评价不稳定的特点,在多无人机目标跟踪决策的框架下,采用集中式评价、分布式执行的思想,提出了中心化Critic强化学习方法,用同一个值函数正确评价每一个Actor的动作值;进一步,为满足分布式体系架构的要求,将Critic去中心化的同时,把其他无人机的动作纳入Actor的评价体系,提出了分布式学习方法。将上述两种多无人机强化学习方法应用于典型多无人机目标跟踪系统中,学习过程具有良好的收敛性;学习得到线性化策略模型,提高了在线决策的泛化性能和计算效率。