基于深度强化学习的能量获取通信系统资源分配的研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:temp_dl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,能量获取通信系统的部署越来越广泛。能量获取通信系统通过从外界环境中收集能量,从而进行系统的正常工作。将能量获取技术应用于通信系统是解决通信系统能源问题的一种有效方案。本文主要研究了能量获取通信系统中的资源分配问题。本文采用点对点能量获取通信系统的时隙结构模型,每个时隙包含能量收集和数据通信两个阶段。针对该模型,提出了能量获取通信系统的能量管理和功率分配的联合优化问题,目的是最大化系统的长期吞吐量。一般地,该联合优化问题的求解需要获得能量获取过程的相关信息,在实际应用中很难满足,因此直接求解十分困难。值得注意的是,该联合优化问题满足马尔科夫特性,可以被建模为马尔科夫决策过程。强化学习算法是解决马尔科夫决策过程的有效方法之一。因此,本文提出使用深度强化学习算法解决该联合优化问题。首先,研究了基于Q-learning和DQN的资源分配方案。Q-learning方案中,为了更好地模拟该联合优化问题中的连续变量,其采用的离散数据集非常大,导致学习资源分配策略的速度十分缓慢。为了解决该问题,在Q-learning方案的基础上,提出基于DQN算法的解决方案。与Q-learning方案相比,该方案具有连续的状态空间,能够更好地解决连续资源分配问题。然后,针对DQN存在的问题,提出了基于DDPG的资源分配方案。尽管上述DQN方案能够很好地解决连续状态空间的问题,但其仅适用于离散的动作空间。深度强化学习算法中,DDPG算法能够解决连续的样本空间问题。因此,使用DDPG算法对该联合优化问题求解。然而,该联合优化问题包含两个连续的优化变量,直接使用DDPG算法会产生一个较大的动作空间,不利于智能体对最优策略的寻找。为了降低动作空间的维度,提出DDPG算法与凸优化算法相结合的DRL解决方案。通过使用优化分解算法将原联合优化问题解耦合为两个子优化问题,其中,上层子优化问题只包含一个优化变量,可以使用DDPG算法直接求解;下层子优化问题是一个凸优化问题,可以使用现有的优化工具箱解决,然后训练得到最优的资源分配策略。仿真结果证明,与现有的能量管理和功率分配方案相比,所提出的深度强化学习方案能够实现更高的长期吞吐量。
其他文献
本论文以民国时期现代主义设计运动背景下的美术字设计作为研究的出发点,选择始创于民国时期的杭州老字号进行个案研究,梳理在面对大量外来文化思想观念冲击时,当时的中国设
目的:研究双气囊小肠镜、计算机断层扫描小肠成像及胶囊内镜在疑似小肠克罗恩诊断中的应用价值,探讨双气囊小肠镜对小肠克罗恩诊断的优势,为临床合理选择小肠克罗恩病的检查
目的:收集桥本氏甲状腺炎(HT)并发甲状腺功能减退(甲减)患者(HT甲减)的临床资料,检测游离三碘甲状腺原氨酸(FT3)、游离甲状腺素(FT4)、促甲状腺素(TSH)、甲状腺过氧化物酶抗体(TPOAb)、促甲
改革开放以来,我国工业生产和城市扩张迅速,但取得这些成绩的代价也是十分巨大的。由于经济发展模式仍遵循传统的工业化道路,资源利用率低、污染排放量大,导致我国在经济增长
1猪的适应性不是一个伪命题有人说:“猪的适应性根本不是一个问题,从国外引进的猪今年不适应,明年就适应了”。事实果真如此吗?众所周知,饲养任何动物品种,它对环境的适应性都是一
目的:研制青光眼患者自我管理效能问卷,提供测评依据;调查青光眼患者自我管理效能水平并分析其与生活质量的关系,为实施有效的干预措施、提高患者生活质量提供参考。研究方法
学校体育作为中学生在踏进高中前的重要体育学习平台,发挥着重要作用,一来是传授相关的运动技能,二来培养学生良好的高中适应能力,更是引导学生养成终身体育的重要课程.
戏台作为古代承载戏曲演出的重要声学建筑,其营造既要适应戏曲表演发展的需要,又要满足神灵和民众的视听需求,其蕴含有丰厚而独特的声学技术,民间也盛传部分戏台有“山西唱戏
【设计思想】地理课程作为高考必考科目之一,十几年来一直受到重视。新一轮的课程标准要求教学三位目标的实现:知识与技能、过程与方法、情感态度价值观。而随着浙江“三位一体