论文部分内容阅读
视觉目标跟踪是计算机视觉领域中一个重要的研究方向,并且应用广泛。近年来,深度学习在计算机视觉领域取得了显著的效果,深度学习的发展不仅突破了很多传统算法难以解决的难题,提升了计算机对于图像和视频的认知水平,更推动了计算机视觉领域相关技术的进步。基于深度学习的跟踪算法也获得了长足的发展,得到了较高的跟踪性能。但是,依然存在许多问题制约了跟踪性能的进一步提升,如通过响应图确定的目标位置不够精确、判别能力较差、初始化信息不准确等。本文针对单目标跟踪中的问题进行了深入研究,有针对性地提出了三个基于深度学习的视觉目标跟踪算法。本文的主要工作与创新总结如下:(1)早期的基于相关滤波的跟踪算法一般采用手工设计的特征描述子来进行特征提取,对目标的特征表达能力有限,导致通过响应图确定的目标位置不够准确,尤其在遮挡和背景混杂等因素干扰下通常不能得到令人满意的跟踪效果。本文提出了基于显著性区域加权的相关滤波目标跟踪算法,采用改进的残差网络来提取多分辨率的特征,将视觉显著性引入相关滤波来对响应图进行显著性加权,提高目标定位精度。在目标跟踪评测数据集VOT(Visual Object Tracking)上进行评测,VOT2016和VOT2017上的平均重叠期望(Expected Average Overlap,EAO)得分分别达到了0.4157和0.3412,表明了该算法良好的跟踪性能。(2)针对基于孪生网络的目标跟踪算法通常采用离线训练的方式来学习相似性度量模型,导致模板分支缺乏足够的判别能力来适应目标在后续帧中外观变化的问题,本文提出了基于自适应背景叠加初始化的孪生网络目标跟踪算法。首先,提出了一个自适应背景叠加初始化的策略,并运用到孪生网络的模板分支中,来增强模板分支的判别能力。其次,构建了一个13层的卷积神经网络作为孪生网络的骨干网络。然后,引入通道注意力机制来对特征图进行自动加权,从而获取对跟踪任务有效的特征。最后,采用GOT-10k数据集对算法进行训练,在OTB(Object Tracking Benchmark)和VOT数据集上进行评估。在OTB数据集中OTB-100上成功率图的曲线下面积(Area Under the Curve,AUC)值达到了64.5%,在VOT2016和VOT2017上的EAO得分达到了0.3011和0.2397,同时具有较快的运行速度,显示了该算法优异的跟踪性能。(3)针对行人跟踪系统中采用检测算法提供的初始边界框不准确的问题,本文提出了基于掩膜叠加初始化的行人跟踪算法。首先,采用Mask R-CNN检测得到目标的模板图像和掩膜图像,再使用轻量的卷积神经网络分别进行特征提取。然后,利用通道注意力对提取的特征进行调整,再将调整后的特征按比例融合,增强模板分支的判别能力。最后,在OTB数据集上进行评估,在OTB中的21个行人跟踪序列上的成功率图的AUC值达到了62.2%,实验结果表明该算法可以改善检测得到的初始边界框不准确导致跟踪性能下降的问题,具有很高的跟踪性能。