论文部分内容阅读
基于视频的人类行为识别任务,受到学术界、商业界、工业界的广泛关注。其研究成果在智能人机交互、虚拟现实、智能监控、安防、多媒体内容分析等方面得到了广泛的应用。然而,人类各类行为之间的语义边界相对模糊,加上视频拍摄时拍摄角度多种多样、光照条件各不相同、背景环境千变万化等不确定因素,使得基于视频的人类行为识别成为一个颇有难度的研究方向。本文围绕人类行为识别任务展开一系列创新性研究,分别从底层行为特征的提取与描述、高层的人类行为的空间表示、行为分类模型的设计和未分割长视频中的人类行为检测等四个方面进行深入的研究。本文的主要贡献概括如下:(1)提出了基于超完备独立成分分析算法(OICA)的特征提取模型。该模型通过数据驱动的无监督学习在训练样本中自适应地学习出适当的特征提取模型参数。超完备的独立成分分析算法和传统的无监督算法相比,使用更多的基向量提取行为特征,从而对复杂的人类行为和视频环境有着更强的拟合能力。受到多层深度网络结构有更高识别率的启发,本文将超完备独立成分分析算法级联成一种双层的网络结构,进一步提高了对人类行为的表示能力。为解决传统的行为特征提取方法过度依赖兴趣点探测器的问题,本文提出一种基于视频块能量的密集采样方法,在突出人类行为前景的同时,排除了背景的干扰。实验证明,基于超完备独立成分分析算法的特征提取方法,能够自主学习到适应各类视频场景的行为特征。与传统的行为特征提取方法相比,本文提出的方法不仅有效提高了行为识别准确率,还扩大了算法的应用范围。(2)提出了动作组件模型,在高层语义空间中对行为进行表示。动作组件模型将人类行为分解为带有语义信息的动作组件,明确地捕获人类行为的时空结构,通过强调模有区分度的动作组件突出不同类别的行为的类间差异,通过使各个动作组件的位置可配置补偿同类行为不同样本之间的类内误差。为了避免在视频中人工标记各个动作组件,本文提出了数据驱动的动作组件学习方法,自主从训练样本中学习出有区分度的动作组件。为了更加贴合实际应用中低延迟的要求,动作组件模型旨在使用尽量少的视频帧完成行为识别。本文参考生物启发方式,使用双通道框架在多尺度、多方向、多范围下分别提取视频中人类行为的运行信息和外观信息,并将双通道特征进行融合,以最大限度地利用视频中的有效信息。实验表明,动作组件模型对人类行为有很好的高层表示,在很低的观察延迟下(5-7个连续视频帧中)即可获得最先进的的行为识别结果。(3)提出了基于注意力机制的行为分类模型。该模型根据视频中每帧的重要性的不同,对相应帧上提取的行为特征有区别地对待,在突出关键帧的同时又减少了无关帧引入的噪声干扰。同时,注意力机制通过弱监督学习为各个视频帧分配相应的注意力权重,避免了在训练数据中对关键帧进行人工标记。为了应对实际应用中高效处理海量的视频数据的要求,提出一种基于深度学习的行为识别模型。该模型中,使用双流卷积神经网络分别提取视频中的静态和动态特征,并将注意力机制嵌入递归神经网络(RNN)中对人类行为进行分类,所有网络参数可以通过统一的端到端学习进行训练。实验结果表明,注意力机制很好地区分了不同视频帧的重要性,相对于对于非注意力模型取得了更精确的识别结果。(4)提出了基于多位置卷积神经网络的单阶段行为检测方法。行为检测任务不仅需要识别出未分割长视频中包含的每个行为实例的类别,还需要精确定位出每个行为实例发生的时间。多位置卷积神经网络在一个单阶段的端到端的卷积神经网络中完成行为检测,完全抛弃了时序行为提名阶段和额外的特征提取阶段。同时,多位置卷积神经网络的绝大部分的计算都支持GPU并行加速,在保障行为检测精度的同时极大地提高了检测速度。在两个大型的长视频行为检测数据库上的实验表明,单阶段多位置卷积神经网络在识别率和识别速度上均大幅度领先于其他最先进的行为检测方法。综上所述,本文对人类行为的特征提取、空间表示、分类模型以及长视频中的行为检测问题进行了深入研究,提出了无监督行为特征、动作组件模型、注意力机制分类模型和多位置卷积神经网络等多种改进方法。在各种类型的行为识别数据集上的实验结果进一步验证了本文提出的各种改进方法的先进性和实用性。