论文部分内容阅读
多人姿态估计是计算机视觉中重要的研究方向,其主要目的是对给定的输入图像或视频,预测其中每一个人身体上各个关键点的位置,以帮助对人的行为进行解读。该任务是动作分类、行人再识别、服饰分析、人机交互等任务的基础,在视频监控、无人商店、自动驾驶、体感游戏、虚拟现实等领域都有着重要的应用价值,对其它类似的关键点预测任务也有一定的借鉴意义。近年来,深度学习尤其是卷积神经网络(Convolutional Neural Networks,CNNs)在图像分类、语义分割、目标检测等计算机视觉领域均取得了突破性的进展,拥有强大学习能力的深度网络越来越受到研究者的青睐。本文针对静态图片和视频中的多人姿态估计这两个密切相关的任务,分别提出了相应的深度学习模型,具体如下:1.对于静态图片中的多人姿态估计,常用的自顶向下的方法在检测框中有多人时,会存在互相干扰的问题。因此本文以特征提取为切入点,提出了一个更鲁棒的自顶向下的网络模型,包括注意力网络和实例分割网络,使网络只关注相关的区域,忽略背景的干扰,从而帮助进行更准确地多人姿态估计。我们通过充分的对比实验验证了上述两个模块网络的有效性,并在COCO这个大型标准数据集上取得了有竞争力的结果。2.至于视频中的多人姿态估计,关键点在时间和空间上的联系可以提供额外的信息来帮助进行姿态估计。因此本文提出了一个自底向上的时空卷积LSTM(Long Short-Term Memory)来优化视频中的多人姿态估计。该框架主要由时间卷积LSTM和空间卷积LSTM组成,并分别结合了光流和关节引力场特征来帮助时空卷积LSTM进行学习。我们在PoseTrack数据集上进行了对比实验,充分验证了提出的方法的有效性,并取得了目前最好的结果。