论文部分内容阅读
基于视觉的车辆检测,即利用某种目标检测算法对图像或者视频中潜在的车辆目标进行定位和识别,是视觉目标检测领域的一个重要研究课题。过往数十年的研究已经取得了重要的进展,然而在面对真实交通环境的各种复杂场景时,基于视觉的行人和车辆检测系统的表现仍然无法满足实际的要求。近年来,深度学习领域有了非常大的研究进展,尤其是深度卷积神经网络在图像识别、目标检测、语义分割等计算机视觉领域表现出了远超传统算法的优势,基于深度卷积神经网络的行人和车辆检测也逐渐成为了自动驾驶技术、智能交通系统等领域的研究新潮流,受到了学界以及工业界的高度重视。本文基于深度卷积神经网络在相关的开源数据集上开展行人和车辆检测的研究工作,主要内容包括:(1)总结前人已有的车辆检测成果,主要是传统的目标检测算法和基于深度卷积神经网络的目标检测算法,并详细分析Faster RCNN的检测原理;(2)基于车辆标签中的高度属性的统计结果设计了一种类似于传统的K-Means聚类的锚点参数生成策略,每一个标签只统计与之欧氏距离最近的四个中心点所对应的锚点的尺寸;(3)详细对比了残差网络和谷歌网络模型在特征融合环节的区别,并在残差网络的基础上结合视觉注意力机制提出了一种注意力残差学习的特征融合方法;(4)改进了传统的难样本挖掘策略。首先,对所有负样本在训练过程中的分类损失进行降序排序,选取挖掘比例内的负样本损失进行梯度反传;其次,对于正样本的位置回归参数进行反变换,再与正样本所对对应的标签计算面积重合比作为正样本的损失权重,最后对所有正样本进行梯度反传;(5)尝试不同的训练参数对改进后的算法模型训练直至模型收敛,根据模型在验证集上的表现选取一个最好的模型在KITTI车辆检测数据集上进行测试,并与改进前的原始算法的检测结果进行对比。主要成果有以下三点内容:详细分析了Faster RCNN的检测原理,并总结了算法直接应用于数据集时存在的不足;针对总结的不足进行相应的算法改进设计,接着完成模型的训练,并在数据集上进行对比实验,实验结果验证了算法的有效性;最后,总结了算法的可以进一步改进的地方。