基于元强化学习的无人驾驶车辆自主决策算法研究

来源 :大连理工大学 | 被引量 : 4次 | 上传用户:wgguihuake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的飞速发展,无人驾驶成为汽车行业的研究热点,安全可靠的智能驾驶策略能够解放驾驶员双手,改善驾驶体验,具有极为重要的现实意义。现如今主流的无人车决策算法大都是基于模型的方法,虽然算法可解释性强,但不具备自适应学习的能力,决策效果受限于模型表达能力,在多场景下算法鲁棒性不强。针对以上问题,本文做了如下工作来改善无人驾驶的行为决策系统。其一,使用深度强化学习替代传统的决策算法。本文采用无模型,异策略和自适应的深度确定性策略算法(DDPG)实现无人驾驶的横纵向决策控制。DDPG可以接受高维感知数据输入和实现连续决策输出,基于DDPG算法的无人车决策系统可以通过与虚拟道路环境交互进行自我学习,且在不同场景下都具有较好鲁棒性。其二,深度强化学习应用于无人车决策时,无人车的训练需要经历一个盲目试错阶段,导致样本有效率低,模型训练缓慢,针对上述问题,本文引入元学习思想,提出元-深度确定性策略算法Meta-DDPG。该算法能够生成一组可用于大部分相似任务的优良初始化参数,使得模型具有初始决策能力,在此基础上可以有针对性地进行特定场景或任务的训练。本文提出的Meta-DDPG算法可以有效提升模型收敛速度并提高模型鲁棒性。本文研究重点在于:针对基于DDPG的无人驾驶策略具有盲目试错的缺点,设计了元-深度确定性策略梯度模型,在深度强化学习训练前期引入元学习的集成策略以提升模型的训练速度;同时,考虑到奖励函数于模型决策效果的重要影响,基于无人驾驶的安全性和平顺性要求,结合多场景的泛化性要求对奖励函数进行设计。
其他文献
真菌在海洋生态系统的营养物质循环中发挥重要作用。然而,海洋中真菌多样性与群落结构的空间分布,特别是沿水深的垂直分布,仍然缺乏了解。太平洋海域平均水深约4k米,随深度增
对于企业而言,要想获得持续发展,在市场中具有竞争力,关键是企业要具有领导力。提升竞争力,关键是提升领导力,企业在市场中竞争力是强是弱,要看它的领导者是否具有卓越的领导力。领
透水混凝土具有一定的承载能力,同时其独特的多孔结构能够使路面积水快速下渗,可缓解城市内涝、补充地下水,具有一定的过滤净化径流污水效果。地聚合物是一种节能环保的绿色
针对ClO2的性质进行室内岩心流动实验研究,结果表明,ClO2作为解堵剂具有很强的地层解堵能力,可用于采油过程中压裂裂缝清洗、聚合物堵水调剖井后处理或注聚井解堵、注水水质
教学文化自觉体现着师生发展的能动认识与选择,是深化课程改革、提升教学质量的保障。教学文化自觉的内涵体现为两个核心特征:教学文化的主体意识,教学文化的反思意识。教学文化
过度开采不可再生的化石能源已经引发了日益严重的能源危机和许多生态环境问题,使用氢能作为其替代能源具有广阔的发展前景。氢能具备储量丰富、绿色清洁、燃烧热值高和储存
1 控制环境,防止发生热应激1.1 减少太阳辐射热对肉鸭的影响可采取以下几种措施:将鸭舍建在阴凉通风的地方,并加大跨度和高度;在鸭舍屋面上加盖20厘米厚的稻草或麦秸;在鸭舍
针对处理井下油管砂埋遇卡事故作业中出现的技术问题,在分析井下管柱结构及砂粒的水力计算的基础上,提出了空心抽油杆冲砂工艺处理措施.经现场施工试验,取得了显著的效果.