论文部分内容阅读
计算机视觉是人工智能的强大驱动力之一,其研究目标是:通过模仿人类,使计算机能够捕获并理解视觉数据。近年来,监控设备随着安防产业的发展大量增长,利用计算机技术实现监控系统的智能化成为一个热门的研究领域。行人作为重要监控对象之一,人们希望获取监控场景中行人的视觉属性,如体型、衣物风格和配饰物等,属性识别已成为计算机视觉中一个研究热点。作为行人外观特征,行人属性的高效识别已成为一项行人视觉分析的基础任务,被广泛应用于智能监控、人机交互和图像检索等领域,有巨大的学术研究和商业应用价值。近十年来,相关研究不断进步,诞生了一些优秀的行人属性识别算法,但是大多数算法只能在特定条件下得到较好的识别效果,对于多变的监控场景、复杂的行人外观等问题,其鲁棒性难以保证。因此,提升属性识别算法的泛化性能,仍是一项十分具有挑战性的研究。为进一步提升属性识别性能,本文主要工作如下:1.提出了一种基于多阶段学习和多损失函数的行人属性识别框架。当前诸多行人属性识别算法仅考虑将属性间的正相关性用于属性的推理,而忽略了多属性学习中属性间存在的负相关性。对负相关性的探索仍是一个开放性的问题。在多属性联合训练中,模型对部分属性的预测性能会受到其他属性的影响,这种影响包括两种:(1)相互促进,(2)彼此抑制。前者具有积极作用,能提高模型对部分属性的预测性能。后者则带来消极影响,会使得模型对某些属性的预测性能彼此抑制。为解决该问题,需要根据属性的学习情况对属性进行分组,把正相关性的属性分在同组,而把相互抑制的负相关性的属性分到不同组,消减负相关性对属性识别的影响。本文提出一种基于深度学习的多阶段行人属性识别模型来同时探索属性间的正、负相关性,联合学习所有属性的识别。另外,构造新的损失函数,将其应用于模型的多个训练阶段,进一步提升模型性能。通过与十二种方法的精度对比,展示了本模型优秀的属性识别性能。2.提出了一种基于多尺度特征融合和循环神经网络编码的多任务行人属性识别模型。监控场景下行人属性预测的关键之处包括两点:(1)不同属性对应图像区域的大小不一致,需提取属性的多尺度特征,(2)挖掘属性的关系以支持属性的推理学习。为满足关键点(1),本模型使用inception网络结构,利用更宽的网络提取不同感受野的行人图像特征,增强特征的语义表达力,又对不同网络层的特征进行融合,提取多尺度的特征,进一步增加特征的鲁棒性。为实现关键点(2),本模型构建两个子模块,分别为:多分支网络模块和探索属性关系的网络模块。前者基于共享表征,学习每个属性独有的特征。后者使用双向循环神经网络挖掘属性特征之间的相关性,使得模型学习到满足属性约束关系的特征,两个模块相互辅助,共同提升模型性能。对比实验展示了本方法的优越性能。