论文部分内容阅读
手势识别在许多领域扮演着越来越重要的角色,如手语识别,视频游戏,虚拟控制。传统基于数据手套和彩色图像的识别方法各自有其局限的地方。数据手套要求大量的校准,并且限制手的自然运动,而且是很昂贵的。彩色图像难于分割手部,特别是当场景中出现重叠、光线变化、快速移动和与皮肤颜色相近的物体时,会更加困难。Kincet等深度摄像头的推出为手势识别提供新的途径。在深度图中,像素点的值表示主体对应点到摄像头的距离。深度图易于将手部分割出来,同时还提供2.5D几何信息。深度摄像头不受光照影响,甚至可以在黑暗的环境中工作。我们设计了基于深度图的静态手势识别和动态手势识别算法,并利用深度学习框架研究了深度图手部的底层特征,将学到的特征用于静态手势识别。对静态手势识别,我们设计基于手部主方向的识别算法。该算法对尺度和旋转不变。我们提出手部主方向的概念和计算方法,手部主方向能保证手部的旋转不变性。我们的算法处理一帧需要0.13秒,能够实时处理Kinect产生的图片。我们在两个公共数据集NTU和sASL上测试我们的算法,分别达到了97.1%和96.2%的识别率。对动态手势识别,我们设计了基于UV特征和随机森林的识别方法。我们的算法巧妙避免了视频序列对齐和压缩的问题。在每个动作种类的训练只有一个的情况下(所谓one-shot learning),该算法在ChaLearn数据集的识别率达到85%。手动设计特征通常比较困难,深度学习(deep learning)框架可以自动学习特征。我们利用深度学习在手部深度图学习特征,用softmax分类器分类。在NTU数据集上,该方法获得93%的识别率。