基于深度强化学习的机械臂抓取操作决策研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:fuconghua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机械臂在工业生产中有着广泛应用。绝大部分抓取算法都依赖于手眼标定结果,物体模型特征等先验知识,且只能针对特定种类物体的抓取,当任务场景,操作目标发生变化时,其无法进行有效的迁移。本文主要研究在机械臂仿真环境下的通用物体抓取决策过程。本文定义的通用物体抓取过程主要满足以下四点约束:·可在指定任务场景下完成对单个任意的通用物体的抓取,包含新物体的抓取。·抓取决策过程的输入信息仅包含传感器观测输入(如相机的图像),机械臂的姿态,夹持器的反馈信息等。·不使用目标物体真实坐标等实物平台上难以直接获得的额外信息,强化学习训练过程采用稀疏奖励的反馈,只有抓取成功时才能获得正面的反馈。·采用笛卡尔坐标系下机械臂末端的连续动作空间作为决策的输出。本文主要使用深度强化学习的方法来研究通用物体抓取的端对端决策过程。在上述约束下,强化学习的方法主要会遇到交互时间长,采样效率低,样本利用率不足,探索性受限四个问题。本文的研究主要针对这四个问题展开,具体研究成果如下:1.本文在基础的DQN和DDPG两类算法上分别引入控制器引导策略探索与分布式训练两点改进,以克服交互时间长、采样效率低的问题。由于高维状态、稀疏奖励、连续动作的约束,直接使用DQN或DDPG算法进行训练难以获得有效的反馈,训练速度非常缓慢。本文设计了 一个成功率约10%的引导策略替代完全随机的探索,提升了采样效率,训练完成后可实现约50%的抓取成功率。针对交互时间长的问题,本文将两类算法进行分布式部署,采用多交互节点单学习节点的框架进行训练,在提高采样效率的同时,也增加了 一定的探索性,模型性能可提升至55%。2.本文提出了基于模仿学习的集成确定性策略算法(BC-EDDPG)。算法通过对专家示教数据的模仿学习提升了模型前期的训练速度,也提高了样本利用效率。而策略网络的集成可平衡模仿学习带来探索性不足的问题。在此改进下,算法最终在新物体的抓取场景下可达到约70%的成功率,同时将训练过程的交互数据从10w以上降低至2w左右,为后续迁移至实物平台的实验奠定了基础。
其他文献
研究背景:烧伤早期心肌受损是导致休克/缺血缺氧及脏器损害的重要因素。烧伤早期发生心肌损害的机制较为复杂,由于应激而激活的神经-体液因素导致的心肌缺氧损害是其重要机制
背景和目的:EB病毒(EBV)是疱疹病毒科嗜淋巴细胞病毒属的成员之一,在人群中广泛感染,与人类多种肿瘤的发生发展密切相关。近年来EB病毒相关胃癌作为一种独特的分子亚型疾病逐渐被人们所知。全球的胃癌患者之中平均有10%为EB病毒相关胃癌(EBV-associated gastric cancer,EBVa GC),但目前对其发病机制的研究尚不明确。AXL基因编码的蛋白是受体酪氨酸激酶亚家族中的一员。
磁共振成像(Magnetic Resonance Imaging,MRI)技术能够通过不同的成像序列与参数,提供关于人体组织结构与功能的多种信息,该技术具有无电离辐射,对软组织灵敏度高,成像方位多
图像目标分割在近年来逐渐成为计算机视觉的热点领域,图像目标分割的目的是像素级别的图像理解。将输入分成不同的目标可解释类别,这些分类类别在真实世界是有意义的。但是现
植酸是磷的主要储存形式,它作为一种抗营养因子,是阻碍植物吸收矿物质和降低动物饲料磷利用率的最主要因素。植酸酶的研究和开发可以有效解决这一问题。目前,人们多利用细菌、真菌和植物等表达系统重组并生产植酸酶,并且应用广泛。但仍旧需要更加绿色、优质和高效的植酸酶表达系统。蛹虫草作为一种食用药用真菌,其成分具有调节免疫功能以及抗炎等药用活性,具备生长周期短,安全性好等优点,因此被认为是重组表达植酸酶的良好受
在过去的二十年中,有关于生物特征识的别技术已广泛应用于各个行业。在许多生物特征中,人手的一些生物特征,例如指纹,手指静脉,手掌形状,掌纹、手掌静脉等,由于这些部位特征
当今频谱资源日益紧张,而非正交多址接入(Non-Orthogonal Multiple Access,NOMA)技术能够实现更高的频谱利用率、更大的吞吐量和更低的传输延迟,因此被认为是5G网络中多址接
本文以电网无功优化降低系统有功网损作为目标函数,在满足潮流约束及变量约束的同时,采用罚函数的方式防止节点电压越限以及发电机无功输出越限,作为本文无功优化的数学模型
大肠癌严重影响人类的健康和生存质量,其治疗方法和药物开发不断推陈出新。常规的抗癌药物和化疗结合方法对于患者的治愈效果有限,且在抑制肿瘤细胞的同时对人体正常的免疫系统损伤极大。因此,更佳有效且能减轻患者痛苦的新疗法的开发势在必行。其中利用融合免疫毒素与抗癌胚抗原(serumcarcinoembryonic antigen,CEA)结合进行靶向免疫治疗方法引起广泛关注。本论文将两种linker(刚性l
大豆需要大量的磷来满足自身的生长代谢以及物质积累,但受限于磷矿不可再生以及植物对磷的吸收能力有限,低磷胁迫一直以来都是影响大豆产量及质量的重要因素,筛选磷高效大豆品种以及提高大豆适应低磷胁迫的能力是解决这一问题的有效途径。研究表明磷转运蛋白家族在促进植物对磷的吸收及转运过程中起着重要作用,分为PHT1、PHT2、PHT3、PHT4、PHT5及PHO1六类,其结构及定位不同因而具有不同的功能。目前在