论文部分内容阅读
在机载下视目标识别领域,由于场景多变,目标尺寸多样,小目标较多,传统的检测算法对机载下视目标识别效果差,但基于深度学习的目标检测算法在该领域能取得优异表现。深度学习目标检测算法计算量大,而航电嵌入式系统功耗低,计算和访存资源不足。因此,本文研究基于航电嵌入式平台的深度学习目标检测系统,在计算和访存资源受限条件下快速准确地实现识别机载下视目标识别任务。
针对嵌入式平台计算和存储资源受限而难以适用于常规深度学习网络的问题,本文基于ARM+FPGA的异构计算平台,设计总体加速方案,实现机载下视的目标识别任务。对机载下视目标识别任务进行需求分析,对比不同深度学习目标检测算法,选择了YOLOv3的轻量化改进算法Stronger-yolo。结果表明,该算法计算量和参数量较低,同时检测精度高,对小目标检测能力好。
针对深度学习算法的参数和计算量大的问题,本文基于剪枝和量化两种方式对网络模型进行压缩。剪枝算法对网络进行稀疏化训练,根据卷积层和BN层的关系和BN层的参数特点,对网络进行通道剪枝。量化算法采用INT16静态量化的方式,训练后对权重和激活值进行INT16量化。实验表明,剪枝量化后的模型精度轻微下降,参数量和计算量大大减少,有效节约嵌入式设备计算和访存资源。
针对卷积运算并行度高的特点,本文基于FPGA设计卷积加速器。为提高系统通用性,采用单一计算引擎的加速模式。结合深度可分离卷积和标准卷积的特点,开发计算单元,基于输入、输出通道对卷积运算实现并行加速。本文基于乒乓操作设计流水结构以提高整体运算效率,基于参数重排、多通道读写等方式最大化利用带宽。通过探讨数据复用模式,充分挖掘片上缓存以减少模型的数据传输量。本文FPGA设计基于高层次综合(HLS)的方式,通过高级语言描述FPGA设计,实现了较高的开发效率。
针对机载下视目标识别任务,搭建机载下视目标识别系统,对系统的性能进行测试和验证。经实验表明,机载下视目标识别系统功耗为6.005W,加速器的峰值计算性能为27.622GOP/s,基于VOC数据集的mAP(检测精度)为75.1%,基于VisDRONE数据集的mAP为19.5%。对于512*512大小图像,系统的实时处理帧率为1.63FPS。对比4核Cortex-53的推理性能,本系统推理时间加速了97.5倍。该系统可应用于无人机航空侦察场景,实现对地面目标的快速准确识别。
针对嵌入式平台计算和存储资源受限而难以适用于常规深度学习网络的问题,本文基于ARM+FPGA的异构计算平台,设计总体加速方案,实现机载下视的目标识别任务。对机载下视目标识别任务进行需求分析,对比不同深度学习目标检测算法,选择了YOLOv3的轻量化改进算法Stronger-yolo。结果表明,该算法计算量和参数量较低,同时检测精度高,对小目标检测能力好。
针对深度学习算法的参数和计算量大的问题,本文基于剪枝和量化两种方式对网络模型进行压缩。剪枝算法对网络进行稀疏化训练,根据卷积层和BN层的关系和BN层的参数特点,对网络进行通道剪枝。量化算法采用INT16静态量化的方式,训练后对权重和激活值进行INT16量化。实验表明,剪枝量化后的模型精度轻微下降,参数量和计算量大大减少,有效节约嵌入式设备计算和访存资源。
针对卷积运算并行度高的特点,本文基于FPGA设计卷积加速器。为提高系统通用性,采用单一计算引擎的加速模式。结合深度可分离卷积和标准卷积的特点,开发计算单元,基于输入、输出通道对卷积运算实现并行加速。本文基于乒乓操作设计流水结构以提高整体运算效率,基于参数重排、多通道读写等方式最大化利用带宽。通过探讨数据复用模式,充分挖掘片上缓存以减少模型的数据传输量。本文FPGA设计基于高层次综合(HLS)的方式,通过高级语言描述FPGA设计,实现了较高的开发效率。
针对机载下视目标识别任务,搭建机载下视目标识别系统,对系统的性能进行测试和验证。经实验表明,机载下视目标识别系统功耗为6.005W,加速器的峰值计算性能为27.622GOP/s,基于VOC数据集的mAP(检测精度)为75.1%,基于VisDRONE数据集的mAP为19.5%。对于512*512大小图像,系统的实时处理帧率为1.63FPS。对比4核Cortex-53的推理性能,本系统推理时间加速了97.5倍。该系统可应用于无人机航空侦察场景,实现对地面目标的快速准确识别。