论文部分内容阅读
行人检测是智能视频分析的重要内容,通过计算机视觉技术判断图像或者视频序列中是否存在行人并给予精确定位。受行人个体之间尺度差异和相互遮挡等因素影响,行人检测方法存在特征提取效果不佳、定位精度较低和检测速度较慢的问题,因此行人检测受到众多研究者的广泛关注。本文围绕基于深度学习的行人检测方法,在小行人检测、密集行人检测等方面展开研究,具体如下:在基于卷积神经网络的行人检测方面,研究实现了基于Faster R-CNN、Cascade R-CNN和RetinaNet的三种行人检测方法,并在Caltech数据集上进行评测。实验结果表明,单阶段的RetinaNet方法能在AP50、Recall和行人检测效率指标上领先于Faster R-CNN和Cascade R-CNN,但其过于密集的锚点框铺设使得mMR和F1 score表现不佳。在小行人检测方面,提出了改进的小行人特征提取方法。首先,通过调整Kmeans聚类距离度量参数,得到与真实框贴合度更高的锚点框,解决卷积神经网络特征提取和边界框回归训练过程中复杂度高的问题。其次,在YOLOv3框架所使用的主干卷积神经网络上引入密集连接模块,增强算法对小行人特征的提取能力,解决小行人特征不易与复杂背景区分的问题。然后,在Caltech数据集上进行了测试实验,漏检率从12.79%降低到11.29%,表明改进的方法能够降低小行人目标的漏检率。最后,在VOC2007的Person子集、VOC2012的Person子集和UAVDT数据集上进行测试,平均精度分别为84.1%、85.4%和42.03%,表明改进后的小行人检测方法具有良好的鲁棒性和泛化性。在密集行人检测方面,提出了改进的密集行人精确定位回归方法。首先,在边界框回归环节使用DIoU和CIoU两种损失函数替换原YOLOv3在边界框回归过程所使用的均方误差(MSE)损失函数,加快收敛速度,提高定位精度,解决密集行人定位偏移导致检测性能差的问题。其次,在检测的后处理阶段使用基于DIoU的非极大值抑制替换传统的非极大值抑制,在保留更多正确检测框的同时不增加过多的冗余框,解决了传统非极大值抑制操作导致的召回率降低问题。最后,在Crowd Human数据集上进行测试,改进后的方法在AP50、AP75和AP上分别达到了72.77%、43.42%和42.92%。在行人检测软件实现方面,采用C语言和Qt Creator5.14.1开发平台,编程实现了基于深度学习的行人检测,并利用真实场景下采集的数据进行验证测试。软件包含视频行人检测、单图行人检测、数据集性能评估等功能。