论文部分内容阅读
随着人工智能的飞速发展,无人驾驶成为汽车行业的研究热点,安全可靠的智能驾驶策略能够解放驾驶员双手,改善驾驶体验,具有极为重要的现实意义。现如今主流的无人车决策算法大都是基于模型的方法,虽然算法可解释性强,但不具备自适应学习的能力,决策效果受限于模型表达能力,在多场景下算法鲁棒性不强。针对以上问题,本文做了如下工作来改善无人驾驶的行为决策系统。其一,使用深度强化学习替代传统的决策算法。本文采用无模型,异策略和自适应的深度确定性策略算法(DDPG)实现无人驾驶的横纵向决策控制。DDPG可以接受高维感知数据输入和实现连续决策输出,基于DDPG算法的无人车决策系统可以通过与虚拟道路环境交互进行自我学习,且在不同场景下都具有较好鲁棒性。其二,深度强化学习应用于无人车决策时,无人车的训练需要经历一个盲目试错阶段,导致样本有效率低,模型训练缓慢,针对上述问题,本文引入元学习思想,提出元-深度确定性策略算法Meta-DDPG。该算法能够生成一组可用于大部分相似任务的优良初始化参数,使得模型具有初始决策能力,在此基础上可以有针对性地进行特定场景或任务的训练。本文提出的Meta-DDPG算法可以有效提升模型收敛速度并提高模型鲁棒性。本文研究重点在于:针对基于DDPG的无人驾驶策略具有盲目试错的缺点,设计了元-深度确定性策略梯度模型,在深度强化学习训练前期引入元学习的集成策略以提升模型的训练速度;同时,考虑到奖励函数于模型决策效果的重要影响,基于无人驾驶的安全性和平顺性要求,结合多场景的泛化性要求对奖励函数进行设计。