论文部分内容阅读
随着计算机科学的进步与发展,很多以前需要耗费大量人力或时间才能完成的工作和任务,现在可以由计算机视觉来完成。目前,计算机视觉是一个非常重要的研究热点和研究方向,该领域的研究涉及计算机图像视频处理、机器学习、人工智能等多个领域和学科,研究的最终目标之一就是能够模拟人的视觉识别能力来完成各种身份识别任务。行人检测作为目前比较热门的计算机视觉研究方向,主要包括行人跟踪、异常行为检测和行人再识别等方面的研究。一个好的行人检测算法完全可以为行人再识别的研究提供强有力的理论支持和技术保障。近年来,深度学习及机器学习技术在视觉检测领域也已取得突破性进展。本文将在此基础上,学习、总结和利用国内外相关学者的一些优秀成果,优化YOLOv3目标检测网络中先验框的选择方式,添加可形变卷积层和可形变池化层,使用语意模型辅助行人检测提高行人检测的准确率。使用轻量化模型和模型剪枝方法,修改网络的基础结构,提高行人检测算法的实时性。论文研究的主要内容包括以下几个方面:第一、针对行人检测易受光照、背景干扰以及遮挡等因素的影响,在YOLOv3目标检测网络中添加可形变卷积层,再将感兴趣区域输入至池化层,进行可形变位置敏感均值池化,并进行分类与目标位置精修,提出位置敏感感兴趣区域对齐进行池化操作的方法,以增强模型对目标特征的学习。第二、研究发现:YOLO在行人先验框的分类选择上没有充分考虑行人的分类和置信度,只是选取了IOU作为先验框评判的依据和唯一标准。因此,本文主要针对先验框的选择方式进行优化。在先验框分类选择上更加统筹考虑IOU行人分类之间的置信度。由于目前的行人检测算法中,利用YOLOv3目标图像检测网络中的图像往往存在漏检率较高的问题,考虑到行人在目标图像网络中的行人分布及语义计数属性学习方法上有一定的相关性,本文提出一种融合行人检测语义的图像深度学习方法和行人检测的语义计数方法。通过检测图像中行人和行人的分布及其语义计数方法属性,利用图像中行人的语义属性来辅助行人检测图像中的行人,抑制行人在图像中的语义属性对行人的影响和干扰,提高检测精度。同时,还针对目标图像视频检测场景下的深度学习行人计数方法精确度低的问题,进行深入的实验与理论分析,提出一种YOLO与DeepSort相结合的深度学习行人计数的方法。第三:针对YOLOv3网络在行人检测过程中出现的实时性不足和模型复杂度高,并占用大量计算资源的问题,使用ShuffleNet网络替换Dark Net53网络中的特征提取网络,并对模型进行剪枝。优化后的YOLOv3-W-D网络在几乎不降低精度的前提下可以显著降低模型的尺寸和模型的计算复杂度,有效提高算法的实时性。通过以上这些方法的应用,使得改进后的YOLOv3网络在行人检测上的检测精度和检测过程的实时性上有比较明显的提高,表明论文所研究方法的有效性。