论文部分内容阅读
近年来,能量获取通信系统的部署越来越广泛。能量获取通信系统通过从外界环境中收集能量,从而进行系统的正常工作。将能量获取技术应用于通信系统是解决通信系统能源问题的一种有效方案。本文主要研究了能量获取通信系统中的资源分配问题。本文采用点对点能量获取通信系统的时隙结构模型,每个时隙包含能量收集和数据通信两个阶段。针对该模型,提出了能量获取通信系统的能量管理和功率分配的联合优化问题,目的是最大化系统的长期吞吐量。一般地,该联合优化问题的求解需要获得能量获取过程的相关信息,在实际应用中很难满足,因此直接求解十分困难。值得注意的是,该联合优化问题满足马尔科夫特性,可以被建模为马尔科夫决策过程。强化学习算法是解决马尔科夫决策过程的有效方法之一。因此,本文提出使用深度强化学习算法解决该联合优化问题。首先,研究了基于Q-learning和DQN的资源分配方案。Q-learning方案中,为了更好地模拟该联合优化问题中的连续变量,其采用的离散数据集非常大,导致学习资源分配策略的速度十分缓慢。为了解决该问题,在Q-learning方案的基础上,提出基于DQN算法的解决方案。与Q-learning方案相比,该方案具有连续的状态空间,能够更好地解决连续资源分配问题。然后,针对DQN存在的问题,提出了基于DDPG的资源分配方案。尽管上述DQN方案能够很好地解决连续状态空间的问题,但其仅适用于离散的动作空间。深度强化学习算法中,DDPG算法能够解决连续的样本空间问题。因此,使用DDPG算法对该联合优化问题求解。然而,该联合优化问题包含两个连续的优化变量,直接使用DDPG算法会产生一个较大的动作空间,不利于智能体对最优策略的寻找。为了降低动作空间的维度,提出DDPG算法与凸优化算法相结合的DRL解决方案。通过使用优化分解算法将原联合优化问题解耦合为两个子优化问题,其中,上层子优化问题只包含一个优化变量,可以使用DDPG算法直接求解;下层子优化问题是一个凸优化问题,可以使用现有的优化工具箱解决,然后训练得到最优的资源分配策略。仿真结果证明,与现有的能量管理和功率分配方案相比,所提出的深度强化学习方案能够实现更高的长期吞吐量。