论文部分内容阅读
基于视频的行为检测是目前计算机视觉与模式识别领域?分重要且挑战性?足的任务,在视频搜索、智能监控等多个领域均有广泛的运用前景。视频行为检测不仅需要将原始视频数据中每个行为发生的时间段检测出来,同时还需对这些行为片段进行正确分类。随着深度学习技术的运用,相关研究目前取得了一定的进展,但距离真正的部署运用仍然任重道远。本论文主要从传统算法与深度学习算法两个方面对视频行为检测展开研究,内容如下:1.对密集轨迹算法框架的传统行为检测算法进行改进,提升其对空间信息的建模能力。密集轨迹是目前视频行为分析领域最先进的人工特征提取算法,能够有效地建模视频中的运动信息。本文首先使用视频滑窗提取候选视频片段,并使用密集轨迹算法在其上提取特征,接着根据Fisher准则对提取到的特征进行编码得到统一的特征表达,同时使用卷积神经网络提取视频帧空间信息特征,将卷积特征与编码后密集轨迹特征进行融合,以此提升视频检测的性能。2.使用结合了注意力机制与空洞卷积的增强残差结构来提升候选视频片段生成质量。残差网络的跳跃连接机制使其能在加速网络训练的同时提升模型精度,受益于该机制,残差网络在图像识别领域取得了极大成功。本文在传统残差结构的基础上加入空洞卷积来增加网络的感受野,同时仿照人体观察外界的机理引入注意力机制来进一步增强模型提取特征的能力。用增强后的残差结构搭建起止节点生成网络,使得网络能更加准确地预测起始点与结束点位置,进而提升召回率。3.在起止节点生成网络训练中使用Focal损失函数来解决样本分布不均问题。在训练过程中,开始位置、结束位置与其它位置的分布情况极度不均衡,模型为了降低损失会偏向于将所有待分类样本标记为负样本。使用Focal损失函数可以改善这个问题,Focal损失函数可以增强网络对困难样本的分类能力。4.在分类网络中使用背景抑制网络来改善检测的效果。在生成的视频候选片段中不可避免地会包含部分背景片段,直接将整个候选视频片段放入分类网络进行处理会影响最终的检测效果。本文使用背景抑制网络来解决这个问题,通过神经网络生成掩膜向量对背景部分进行抑制消除,分类器只利用真正的行为片段部分进行分类,提高分类的正确率,保证最终的检测结果。