论文部分内容阅读
随着人工智能的发展,计算机视觉、自然语言处理、语音识别等新兴技术也正在快速发展着。作为计算机视觉领域中的前沿研究方向,人体动作行为识别在视频监控、人机交互、虚拟现实和视频检索等方面都有着非常广泛的应用。深度卷积神经网络(Deep Convolutional Neural Network,DCNN)是一种深度学习模型,常用来处理和分析视觉图像。本文在Mask R-CNN框架下,结合狄拉克网络(Dirac Nets)的深层次特征提取能力,引入细节保留池化(Detail-preserving Pooling,DPP)操作,设计特征提取网络。然后,结合积分姿势回归的避免量化误差的优势,引入Ranger优化器和Mish激活函数进行算法优化,设计人体姿态估计模型。本文完成的主要工作如下:首先,构建了基于狄拉克网络和细节保留池化的人体姿态估计模型(DDHPE)。通过分析狄拉克网络的原理和结构,引入了具有自主学习能力的狄拉克网络作为特征提取网络。在此基础上,针对一般池化层容易忽略细节特征的问题,利用能够放大空间变化的细节保留池化操作对特征提取网络进一步优化。将优化后的特征提取网络和特征金字塔网络作为Mask R-CNN的骨干网络,提出了具有深层次特征提取能力的人体姿态估计模型DDHPE。在CIFAR-10和CIFAR-100数据集上验证了特征提取网络的有效性。在MSCOCO2014数据集和MPII数据集上的实验结果表明,所构建的人体姿态估计模型可以提升预测的精确度。然后,提出了人体姿态估计模型DDHPE的优化算法。针对人体姿态估计任务,引入可以避免量化误差的积分姿势回归来优化基于狄拉克网络和细节保留池化的人体姿态估计模型,构建了基于积分姿势回归的DDHPE模型(IPR-DDHPE)。此外,利用能够优化网络梯度传播的Ranger优化器和优化网络结构的Mish激活函数对IPR-DDHPE模型进一步优化。在MSCOCO2014数据集和MPII数据集上的实验结果表明,优化后的RM-IPR-DDHPE模型提升了人体姿态估计的精确度。最后,设计并实现了人体姿态估计原型系统。将人体姿态估计任务应用在视频检测中,以视频数据集Human3.6m为处理对象,在Django的应用框架下设计出人体关键点检测演示系统。该原型系统通过对视频中的每一秒进行检测,实现了对目标人物的检测,并在此基础上进行了人体姿态关键点的估计。该论文有图27幅,表9个,参考文献92篇。