论文部分内容阅读
基于图像的人体姿态估计是计算机视觉领域的一大重要研究热点,其主要目标在于获得给定图像中人体各部位在图像中相对位置信息的过程,可广泛应用于视频监控、行为识别和人机交互等多方面领域。根据使用图像不同,可分为基于彩色图像和深度图像两大领域。其中深度图像记录的是目标到相机之间的距离信息,因而具有颜色无关性,不受光照变化等环境因素干扰,并且在保护隐私等方面也具有彩色图像不可替代的优点。但由于受深度图像姿态较为单一以及估计算法性能约束等方面的影响,目前在对深度图像的3D人体姿态估计仍是目前的研究难点及热点。本文为完成对深度图像的3D人体姿态估计,基于现有算法,在传统随机森林方法和基于深度学习卷积神经网络方法两大领域分别进行研究,其中在基于传统随机森林的姿态估计领域中,受训练样本研究条件等限制,本文仅对人体的上肢姿态估计方法进行研究;而对于深度学习的姿态估计而言,由于不存在上述研究限制,因而对整个人体的姿态估计方法进行研究。具体研究如下:1、为解决基于随机森林的3D人体姿态估计算法容易出现的误分类问题,提出一种基于自适应融合特征提取和误分类处理机制的改进算法。该算法利用自适应融合特征提取方法提取深度融合特征,此特征可表达图像距离信息和部位尺寸信息,增强了特征的表征能力;针对识别部位误分类问题,分别从识别部位误分点聚集情况和迭代整合思想出发,提出误分类处理机制,改善部位识别结果;最后提出可进一步处理误分点的改进主方向分析算法,自适应计算出部位主方向向量,实现对深度图像的3D上肢人体姿态估计。2、在基于深度学习方法的3D姿态估计中,首先针对提供3D标签的深度图像的3D姿态估计研究,本文提出一个基于沙漏网络结构的姿态估计方法。该方法网络结构由2D回归模块和深度模块搭建而成,可通过强监督学习技术,以端到端的训练模式,来完成对深度图像3D回归模型的训练,从而实现对深度图像的3D人体姿态估计。3、随后是针对深度图像缺乏深度标签,以及因姿态单一造成的模型泛化能力不高的问题,在上述网络结构基础上,创新性地提出一个基于多源图像弱监督学习的3D人体姿态估计方法,此方法主要包括以下几点,(1)使用多源图像融合训练的方法,提高模型的泛化能力;(2)基于弱监督学习技术,解决缺乏标签的问题;(3)为提高姿态估计结果,改善了残差模块设计。从而最终实现的对深度图像的3D人体姿态估计。