论文部分内容阅读
行人搜索(Person Search)旨在基于视觉信息对行人检测与行人再识别两个任务进行联合建模优化,完成跨摄像头行人目标的身份一致性关联,将单摄像头视频监控扩展到多摄像头协作视频分析,实现整体监控系统的性能最优,更能满足实际的应用。本文通过对大量国内外相关成果的研究,结合现阶段行人搜索存在的主要问题,从多任务学习的角度出发,基于注意力机制思想和图像均匀分块思想,提出不同的高精度的端到端行人搜索算法或者改进算法。行人搜索可以分解为两个独立的任务,行人检测和行人再识别任务,但这在实际应用中操作性以及效率性都具有较多的不足。我们利用多任务学习的思想,在单个神经网络中共同处理这两个任务。基于共享的卷积神经网络提取特征,建立多任务的网络模型。然而,端到端的神经网络模型过于庞大,需要处理大量的输入信息。所以我们借助于人类的注意力机制,仅选择一部分关键的信息进行处理,从而提高神经网络的效率。具体来讲,我们使用SE模块对特征通道之间的相互依赖关系进行显示建模,通过神经网络学习获取到每个特征通道的重要性,再根据此重要性去增强对当前任务有用的特征,减弱用处不大的特征。在数据集CUHK-SYSU上的实验验证了,基于注意力机制的行人搜索端到端处理模型可以较好的实现行人搜索功能。在实际的监控场景下,由于拍摄视角、清晰度、光照情况以及行人姿态的多样化,且存在局部遮挡的情况,行人的外观会发生强烈的改变,跨摄像头的行人搜索是有较大难度的。目前,构造优秀的特征表示以及学习合理的特征匹配模型是主要的研究方向。使用人体局部特征对行人进行描述为匹配任务提供了细粒度信息,而其先决条件是每个局部都能被准确的定位。我们不使用额外标注,而是直接定位局部位置,强调每个局部位置的内容一致性。具体来讲,为了学习用于行人搜索的区别性特征,我们对检测到的行人图像进行均匀分块,输出由若干个局部特征组成的卷积描述符作为行人匹配的特征。实验结果证明,改进的行人搜索端到端处理模型准确度得到了进一步的提升。