论文部分内容阅读
随着人工智能技术和计算机视觉领域的发展,智能的人机交互和精确的人脸识别具有越来越重要的学术价值以及广阔的市场前景。其中面部姿态估计是人机交互的重要组成,而面部特征点定位则是人脸识别的核心。面部姿态估计也叫头部姿态估计,是指根据面部图像定位出头部在空间三个角度参数的过程,而面部特征点定位是根据人脸图像定位出若干个人为定义好的特征点的过程。在深度学习浪潮的推动下,这两个计算机视觉任务都取得了突破性的进展,然而在实际应用中,存在众多干扰因素的影响,导致算法的预测效果下降,因此设计有效的面部姿态估计与特征点定位的算法仍然具有重要的研究意义。本文围绕面部姿态估计与特征点定位这两个问题,通过研究已有方法存在的不足对已有算法提出改进方案,论文主要贡献如下:(1)分析了单模态算法的不足,设计了一种基于多模态的面部姿态估计算法。首先从模型的构建角度入手,在概率性框架下推导出混合模型的目标函数,并介绍了迭代交替的训练方式。在两组公开数据集上,设计了多组对比实验,跟目前经典的算法相比,本文提出的混合回归算法取得了更低的平均绝对误差。最后通过对图像样本增加不同强度的噪声或遮挡,生成了新的噪声数据集,实验结果验证了该混合回归模型对于噪声和遮挡均具有较好的鲁棒性。(2)提出了一种改进的深度特征点定位网络。在原网络的基础上,使用精心设计的多种尺寸的残差模块网络去改进原有的卷积神经网络,使网络具有更强的特征提取能力,改进后的模型在公开的数据集300W上取得了9.1%的提升。分析了改进前后网络的存储开销和运算瓶颈,使用了两种不同的轻量级网络模块在算法层面对模型进行压缩,并通过实验验证了模型压缩的有效性。(3)提出了一种基于半监督学习的面部特征点定位算法。在面部特征点模型的训练中,往往需要大量的标签样本,导致数据获取开销过大。针对这个问题,本文在深度对齐网络的基础上,引入了一种半监督的学习机制,利用大量的无标定的数据和有限的标签样本一起训练模型。该方法将监督学习和无监督学习统一,通过无监督学习来提高监督学习的效果。实验证明,引入的半监督模型学习机制,显著提升了原有模型的特征点定位的准确度。