论文部分内容阅读
人体动作识别是计算机视觉和模式识别中一个非常活跃的领域,并且在自然人机交互、虚拟现实、智能视频监控和多媒体搜索领域中有很多潜在的应用。早期的动作识别算法都是针对彩色摄像机录制的彩色视频序列。随着摄像技术的快速发展,廉价的深度摄像机的诞生,例如微软的Kinect,大大促进了包括动作识别在内的视觉识别技术的发展。和传统的彩色图像相比,深度数据能够提供额外的第三维度的深度信息,该信息不仅对光照的变化不敏感,而且能够忽略由于衣服,皮肤,头发以及背景产生的颜色差异。论文围绕Kinect体感设备获取的深度数据,实现了多种快速且有效的人体动作识别方法,研究内容如下:第一,针对传统的彩色视频序列算法实现复杂,无法做到实时识别动作的问题,论文在骨骼数据的基础上提出了一种实时且有效的人体动作识别算法。该算法提取20个关节点中的15个关键点,然后对15个关键点建模,分别获取它们的位置模型,运动模型以及角度模型,将这些模型进行组合,用HMM模型对动作进行分类。在微软的权威数据库MSR Action3D进行实验,实验结果表明,该算法能够做到实时且识别率较高并且能够在处理深度骨骼视频时能做到实时识别。第二,针对传统的彩色视频二维信息不足导致动作识别效果不佳的问题,提出一种新的基于三维深度图像序列的动作识别方法。该算法在时间维度上提取了时间深度运动图(TDMM)来描述动作。在三个正交的笛卡尔平面上,将深度图像序列分成几个子动作,对所有子动作作帧间差分并累积能量,形成深度运动图来描述动作的动态特征。最后用支持向量机(SVM)进行动作的分类。在两个权威数据库MSR Action3D和MSRGesture3D上进行实验验证,实验结果表明,该方法能够快速对深度图像序列进行计算并取得较高的识别率,并满足深度视频序列的实时性要求。第三,在时间深度运动图(TDMM)的基础上,提出了时间深度模型(TDM),在空间维度上,用空间金字塔方向梯度直方图(SPHOG)对时间深度模型进行编码得到一种全新的描述符,即TDM-SPHOG描述符。用SVM和CRC进行动作的分类。在相同的数据库MSR Action3D和MSRGesture3D上进行实验验证,实验结果表明,该方法能够得到非常高的识别率。本文提出的针对深度数据的方法同现有的主流方法相比,在识别率上都有着很大的提升,同时在速度上基本都达到的实时性的要求,足以证明这些方法的有效性。