论文部分内容阅读
随着人工智能技术的快速发展和实际应用的巨大潜力,如何在监控视频中实现对行人的姿态估计和重识别,及时发现和处理行人的异常危险行为并实现对目标人物的检索追踪,从而提高公共场所的安全预警能力,这已经成为了工业界和学术界热门的研究课题之一。传统的以及现有主流的基于深度学习的行人姿态估计算法,在应用到实际监控视频场合中时,都不能满足任务处理的实时性和准确性要求。另外,行人重识别算法更多关注是在对单帧图像以及图像全局特征的研究,应用到实际监控视频中时,不能有效的利用视频序列中包含的信息和应对由行人移动造成的模糊等背景噪声干扰。针对这些问题,本论文重点研究了基于深度学习的行人姿态估计与重识别算法。针对行人姿态估计的研究,本论文提出了基于多任务的行人姿态估计算法,首先将轻量级的基于YOLOv3的行人目标检测网络和基于特征金字塔的行人关键点检测网络合并到一个端到端训练和预测的网络中,实现多任务同时检测,提高了算法运行速度;然后利用检测到的行人目标边界框与关键点,通过姿态残差网络结构学习人体姿态,解决了由于多人边界框重叠导致关键点分类到个体实例上时出现的模糊性问题,能够对关键点进行准确的聚类分组,提高了行人姿态估计的准确率。实验结果表明,本论文提出的基于多任务的姿态估计算法,与基于部分亲和域的姿态估计算法相比,在MSCOCO测试集上,每秒处理帧数(Frames Per Second,FPS)运行速度,提高了2倍左右,达到20 FPS,具有实时性处理效果;平均准确率提高了2%左右,达到67.2%。针对行人重识别的研究,本论文提出了基于多维度局部特征聚合的行人重识别算法,通过视频图像序列对行人重识别算法进行研究,聚合多帧行人图像特征;首先利用我们提出的多任务行人姿态估计网络搭建了多任务区域建议网络,根据检测得到的行人姿态和边界框,得到行人图像局部区域划分建议,减少背景噪声干扰并解决了行人图像对齐问题;然后搭建图像局部特征生成网络,根据区域建议对行人图像进行切割并利用卷积神经网络提取得到图像局部特征,使用图像质量评估网络评估行人图像局部质量;最后构建特征聚合单元,根据局部图像质量评分将图像序列进行多维度局部特征聚合,不同局部区域的特征根据质量评分的高低获得不同的权重进行聚合,图像序列之间对应的局部区域特征形成互补,降低了模糊或遮挡等噪声区域影响,得到更具代表性的行人重识别视频级判别特征。实验结果表明,本论文提出的多维度局部特征聚合方法提高了行人重识别准确率,尤其是在模糊或遮挡等多噪声干扰环境下的准确率,在PRID 2011数据集和iLIDS-VID数据集上,与使用图像全局特征的QAN(Quality Aware Network)网络相比,rank-1分别提高了0.9%和7.1%,rank-5分别提高了0.3%和4.4%。本论文研究并实现的基于多任务的行人姿态估计和基于多维度局部特征聚合的行人重识别方法可用于公共场所的智能视频监控场景中。