卷积神经网络的硬件加速设计与仿真

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:Youmi8787
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习已被广泛应用于许多不同的领域和系统中,其中,卷积神经网络算法被广泛地应用于人脸识别、图像处理、目标检测等领域。随着人们的需求越来越复杂,网络层数也在不断加深,卷积神经网络的训练和推理对硬件算力的要求也越来越高,运算功耗也越来越高。为了探索如何实现高性能、低功耗的卷积神经网络硬件实现方法,本文对比了不同的硬件加速平台,提出了一种基于中科院Seeta Face人脸识别项目的VIPLFace Net卷积神经网络的硬件加速系统,并基于Xilinx ZCU102 FPGA平台实现。该系统具有计算效率高、低能耗的优势。本文首先从卷积神经网络的基本原理出发,分析了卷积神经网络的训练和推理过程,以及卷积神经网络的基本组成结构,总结了卷积神经网络的特点。继续探究了中科院Seeta Face人脸识别项目,以及本文的加速系统设计所用到的卷积神经网络VIPLFace Net。其次,探索了卷积神经网络推理加速设计空间,重点分析了卷积层的计算特性,并对优化卷积计算的方法进行详细探究。通过分析不同循环展开方式对片外内存访问、片上缓存和计算效率的影响,选择了在输入通道上进行循环展开,通过分析不同的数据复用方案,选择了输入特征图复用,并提出了片外内存访问量的计算方法。依据加速空间探索提出的设计思路,设计了本文的卷积神经网络硬件加速系统。该加速系统通过AXI高速并行总线在FPGA和片外DDR上进行数据传输,设计了独特的片上数据存储方案,并提出了一种针对输入特征图通道数循环展开的计算方案,设计了144×144的并行计算单元,采用了乘加树结构以及流水线运行策略。本加速系统的源代码采用C++编写,在Xilinx SDSo C开发环境中,将C++代码进行编译、链接、转换为RTL,然后进行综合、布局布线,生成可作为启动引导的文件BOOT.BIN、image.ub,以及可执行文件,将这些文件复制到SD卡中,下板调试,查看加速结果。测试结果表明,该加速系统人脸特征提取的相似度为99.999%,与原始网络相差不到0.001%,工作在250MHz的频率下,VIPLFace Net卷积层运行时间约为0.155ms,比仅使用ARM A53时运行速度提升了约45倍。本系统板级动态功耗约为8.546W,远低于通用处理器的功耗,系统实时吞吐量达到189.84GOPs,与基于FPGA的相关加速方案相比提高了3.08倍。本设计的实验结果达到了设计目标,无论从加速性能还是系统功耗方面,都有很大的优化,在硬件资源受限的平台中,实现了一个高性能、低功耗的卷积神经网络硬件加速系统,在实际工程中有重要参考意义。
其他文献
随着无线通信技术和互联网技术的快速发展,万物互联成为了可能,无线终端设备上运行的生活服务、智能办公、信息推送等类型的应用程序为终端用户提供了丰富便捷的服务,但同时也加重了无线终端设备的计算负载和能源负载。受限于无线终端设备的计算能力、缓存能力和电池容量,用户在实际使用这些终端应用程序时,经常会遇到业务处理延迟大的问题。当处理延迟大于业务最大可容忍延迟时,服务就会中断,降低了用户服务质量(Quali
学位
蛋白质的糖基化是一种生物体内普遍存在且十分重要的蛋白质翻译后修饰,所有表达的蛋白质中,大约有50%是被糖基化的。糖基化后的蛋白质参与了生物组织的发育以及多种生命活动的调节,异常的糖基化还会导致疾病的发生,因此糖链结构鉴定对于认识生命活动和疾病致病机理,具有重要意义。通过质谱数据鉴定糖链结构,是目前糖链结构鉴定的主要方向。但是存在如下问题:1)人工解析谱图需要耗费大量的人力物力;2)糖链结构本身极其
北斗三号卫星导航系统的全面开通标志着北斗进入了全球服务的新时代。但由于北斗信号落地功率弱,易受到地面信号的干扰,特别是在北斗信号频段附近的5G信号,因此研究北斗信号与北斗邻近频段的5G信号之间的兼容性问题具有重大意义。本文以北斗S频段的区域短报文信号和北斗L频段的B1C信号为研究目标,重点研究B1C信号和短报文信号频段附近的5G信号对B1C和短报文信号的捕获、跟踪的影响。本文的主要内容如下:首先对
学位
随着5G移动通信产业化的不断加速,测控通信、卫星导航和电力网络等领域对时钟基准源的准确度和稳定度提出了更高的要求。恒温晶振(Oven Controlled Crystal Oscillator,OCXO)作为常用的时钟源,其短期稳定度较好,但由于受到老化和环境温度等因素的影响,其频率会逐渐发生漂移现象,长期稳定性较差,无法独立应用于高精度的授时、守时、导航定位等领域。而用全球导航卫星系统(Glob
学位
特高频(UHF,300-3000MHz)电磁波通讯广泛应用于可穿戴和无线植入式医疗设备中。天线作为整个通讯系统的重要组成部分,针对穿戴与植入需求,存在体积过大、难以集成等问题,而传统天线小型化设计又会带来增益低、阻抗匹配难等技术挑战,严重制约了智能可穿戴与微创植入等行业的发展。因此,研制新型辐射机理的小型化天线具有重要工程应用价值与学术研究意义。本文以基于体声波谐振的磁电天线为研究对象进行了系统的
学位
随着人工智能的快速发展,对话系统的应用越来越广泛,任务型对话系统作为人机对话系统的重要分支,其需求也在日益增加。在仪器仪表领域,随着仪器技术的不断发展,仪器领域相关任务的操作步骤越来越复杂,用户的学习成本越来越高,因此,将任务型对话系统应用在仪器仪表领域,能够帮助用户高效地完成任务,进而促进行业的发展。本文针对任务型对话系统中个性化缺失的现象,提出了基于任务树的个性化任务型对话系统模型,利用深度学