论文部分内容阅读
随着网络的蓬勃发展和监控设备的广泛普及,有限的人力资源渐渐难以应对海量的影像数据。所以,越来越多的人期望通过行为识别技术,检测和识别图像或视频中人类的姿态、动作和表情等信息,让计算机可以智能的理解、学习和模仿人类的行为。因此,针对图像和视频数据中的人类行为的识别和理解逐渐成为了计算机视觉领域的一大热点问题。由于人类行为的发生过程中存在着表观形态差异性大、非刚性形变建模困难、局部肢体遮挡严重、以及底层的视觉特征到高层的语义特征之间的语义鸿沟等障碍,导致行为识别技术难以提取到鲁棒而有效的时空表达特征。同时对于有交互的人类行为识别需要对上下文信息和交互环境进行理解,现有算法难以构建具有语义分析和逻辑理解能力的模型。因此,如何构建鲁棒的时空特征表达和有效的语义理解模型,是解决计算机识别人类行为的关键问题。近年来,随着机器学习和计算机视觉等技术的发展,行为识别技术在学术界和工业界都取得了一定的进展,但是仍旧存在着一些问题:1)如何提取鲁棒的局部时空特征是行为识别任务中最基础也是最重要的;2)如何提取时空特征中的上下文信息,构建有效的语义解析模型是行为识别任务的关键;3)如何发掘时空特征之间时序关系,理清人人、人物和群体间的作用模式是提高行为识别可解释性的突破口。针对上述问题,我们从三个方面对视觉影像数据中的行为识别和理解展开了研究,主要的贡献和创新如下:(1)影像数据的视觉重构。由于前人工作较少关注多种影像数据间的互补关系,本文从剔除行为的静态表观冗余,增强行为的空间结构和运动信息表达入手,提出了模拟人脑视觉系统的视频数据结构。针对视频数据中空间结构信息缺失的问题,提出了基于抽样估计和倍乘迭代的多任务视频分割算法,并在此基础上提出了基于轨迹关键点密度的空间深度合成数据;针对静态表观信息冗余和运动信息表达不足的问题,提出了光流数据与空间深度合成数据融合的空间与光流数据结构,降低了静态表观对运动信息的干扰,提升了特征对于时空信息的表达。所提出的算法在主流行为识别数据集上较传统算法提高了大约17%识别精度。(2)多层级语义解析建模。由于底层视觉特征到高层语义信息存在着映射不一致的问题,本文提出了自下而上的多层级语义解析模型。针对行为动作中局部时空特征难表征的问题,提出了基于语义特征和交叉分类的行为识别模型,增强了局部时空特征的语义表达,实现了语义特征的精细化分类;针对长序视频中行为的时序逻辑复杂的问题,提出了基于三维卷积神经网络和循环神经网络结合的时空特征表达与高层语义映射算法,有效地解析了长时序视频中的逻辑关系,提升了行为识别的准确率。所提出的算法在主流行为识别数据集上达到了90%的识别精度。(3)面向对象的行为理解。由于现有工作缺乏从微观动作到宏观行为的逻辑分析,模型对行为发生的解释能力较低,本文提出了基于多层级语义属性检测和识别的行为理解算法。针对基于内容的行为识别可解释性差和易受环境干扰的问题,本文首先建立了室内场景的跌倒检测数据集,为基于姿态估计的行为识别提供了数据支持,同时提取基于多级金字塔策略的表观特征,实现了面向对象的语义属性检测算法,探究了微观动作到宏观行为的发生过程,提高了机器视觉到人类视觉的可解释性。所提出的算法达到了大约90%检测精度,并且实现了35帧每秒的实时检测性能。