论文部分内容阅读
人脸检测识别技术操作友好用途广泛,已经成为社会生活中最重要的生物特征识别技术之一,基于深度卷积神经网络的人脸检测识别方法相较传统方法拥有更好的准确性和可扩展性,但其存储、传输与计算的成本也更高。使用数值量化方法可以降低深度卷积神经网络的运行成本,配合针对优化的硬件设计,能在有限的资源下实现较高的处理速度,若能在量化的同时保持检测识别的准确性,即有望实现高效的终端人脸检测识别系统,为智慧城市、智能物联网等下一代应用场景补上技术上的关键一环。本文首先总结了人脸检测、人脸识别、神经网络量化与硬件加速的代表性方法。然后,优化DoReFa-Net算法改变量化数据分布形式,提高量化模型的存储空间利用率,经测试,在8-bit量化精度下,可保持模型准确率且获得较高的压缩率和加速效果。基于YOLO算法设计端到端的8-bit量化人脸检测网络,在提升检测速度的同时也能取得较高的准确率。基于CenterFace算法设计低类内距离高类间距离的8-bit量化人脸识别网络,使误识更少,识别类别可扩展性更强。在此基础上,通过多层次的并行计算扩展和数据复用优化,实现了低带宽需求、高吞吐率以及高资源利用率的通用卷积神经网络加速器。最后,将8-bit量化人脸检测识别网络和硬件加速器进行结合,并在FPGA开发平台上完成验证。本文设计的8-bit量化人脸检测网络在人脸检测数据集FDDB上取得了93.91%的准确率,8-bit量化人脸识别网络在人脸识别数据集LFW上取得了94.23%的准确率,二者的准确率量化损失均小于1%。以量化人脸检测识别网络为基础,时钟频率为100 MHz时,设计的卷积神经网络加速器在Zynq XC7Z035 FPGA芯片上的有效算力可达125 GOPS,计算单元平均利用率超过80%。设计了终端人脸检测识别系统并在MIZ-7035开发板上进行了实测验证。本文的研究可以为后续高准确率或高处理速度的人脸检测识别硬件加速研究提供一定的经验参考。