基于FPGA的卷积神经网络硬件加速器设计研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:passcardaj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的快速发展,卷积神经网络(Convolutional Neutral Network,CNN)在图像处理,目标检测等领域发挥着越来越重要的作用。然而在很多的时候,使用CPU和GPU在处理这些大数据时存在诸多弊端,存在着速度慢,成本高,功耗大等缺点,无法满足CNN低功耗低延时推理的需求。现场可编程逻辑门阵列(Field-Programmable Gate Array,FPGA)则可以轻松解决这些问题,FPGA具有研发成本低、灵活性高、可以实现并行计算、功耗低等特点,完美契合了CNN算法的计算需求。本文分析研究了现有CNN模型,对CNN中的卷积层、池化层、全连接层批量归一化、激活函数的内部计算原理进行了分析研究,并对目前主流的CNN模型做了具体分析,在相关研究的基础上,设计了一种基于FPGA的卷积神经网络加速器。该加速器在卷积运算中四个维度方向实现了并行化计算。提出了参数化的架构设计,在三种参数条件下,单个时钟周期分别能够完成512,1024,2048次乘累加。设计了片内双缓存结构,减少片外存储访问的同时实现了有效的数据复用。使用流水线实现了完整的卷积神经网络单层运算过程,提升了加速器的运算效率。对比实验部分,使用Virtex-7 2000T FPGA进行CNN推理计算加速,并与CPU,GPU以及相关FPGA加速方案做了对比,对比实验所用网络为VGG16和Face Alignment,实验结果表明,在VGG16网络推理计算上,本文所提出的加速器设计在最大参数条件下计算速度达到了560.2 GOP/s,为i7-6850K CPU的8.9倍,同时,其计算的性能功耗比达到了NVDIA GTX 1080Ti GPU的3.0倍,在Face Alignment网络推理上,加速器在最大参数条件下计算速度达到了306.8GOP/s。与相关研究相比,本文所设计的加速器在保证通用性的同时实现了较高的性能以及性能功耗比。
其他文献
目前,网络已经成为复杂系统建模和分析的有效工具。现实世界中存在着各种网络,例如社交网络,技术网络和生物网络。目前研究者对网络分析进行了广泛的研究,以更加深入地了解网络本质。传统的网络表示方法不能很好地揭示网络的深层特征,因此网络表征学习研究成为了网络分析任务的研究热点。网络表征的学习目标是学习每个网络节点的低维高密度连续向量,该向量不仅可以度量网络中节点之间的空间关系,还可以揭示深层的网络节点之间
谈判是一种在日常生活中经常使用的一种沟通交流行为,通过人与人之间的信息交换以及方案的交换来解决一系列的在最终谈判问题上的分歧并达成双方满意的谈判结果。当前人们对自动谈判技术也有了浓厚的兴趣,越来越多的人开始进行自动谈判智能体的研究,人们对人机谈判智能体研究的目的是构造一个拥有人类谈判技巧且十分智能的智能体,并通过这样的研究最终为谈判交互或者训练人类的谈判技巧提供帮助传统的谈判中人们可能会受到多种因
近些年来,带有高质量像素级分割标签的大规模训练数据极大地驱动了深度学习模型用于分割领域的性能。然而,用于分割任务训练集的注释是非常费力的,因为注释必须逐像素地完成。在这种耗时耗力的情况下,本文考虑到不同样本对分割模型的贡献可能相差很大,有些图像对模型的增益很大,但是也有些图像对模型的增益作用很小,也就是说,并非所有图像都需要注释。如何充分利用大规模未标记图像来增强分割模型的性能并用最少的人工成本对
气体传感器一直是传感器领域的重要研究方向,实现对有机气体组分的实时监控、有效识别和区分,对环境监测、安防、健康、医疗等各个领域具有非常重要的意义。然而,气体传感器技术仍面临着诸多挑战:例如,如何构建尺寸小、灵敏度高、响应快、以及成本低的气体检测系统等。薄膜体声波谐振器(FBAR)具着灵敏度高、尺寸小、响应快、成本低、易于实现阵列化以及可输出多种传感参数等特点,这些优点使得FBAR得到了广泛的关注。
基于稳态运动视觉诱发电位(steady state motion visual evoked potential,SSMVEP)的脑计算机接口(brain-computer interface,BCI)融合了人类视觉系统的运动感知功能,可减轻由SSVEP强烈视觉刺激引起的不适感和适应性,引起了广泛关注。然而,SSMVEP范式下依然存在被试者长时间精神集中出现的疲劳状态,这种疲劳状态将直接影响BCI
近年来,卷积神经网络由于其较高的分类精度而广泛应用于图像分类、目标检测以及场景分割等计算机视觉任务。卷积神经网络的分类精度随着网络层数的增加而提高。然而,伴随着网络加深,网络规模变大,需要的计算量剧增,采用软件运行卷积神经网络算法将会是一项非常耗时的工作。各种硬件加速器应运而生,以提高卷积神经网络模型的计算性能并满足嵌入式设备对于实时性、低功耗的要求。其中,现场可编程门阵列由于其强大的并行计算能力
计算机视觉技术和深度学习的快速发展为打造大规模、无人化养殖农场带来了新的机遇。利用计算机视觉技术实现猪个体识别,以提高猪场的管理效率成为近年来的研究热点。不同猪个体之间脸部特征较为明显,可通过识别猪脸确定猪个体身份,但实际养殖中脏乱的环境为猪脸识别带来很大困难。本文提出了一种基于多尺度卷积神经网络的猪脸识别算法,通过加深网络层数和拓展网络宽度提高了网络对猪脸图像的特征提取能力。利用对称拆分和非对称
随着计算机和自动化技术的发展,越来越多的移动机器人进入人们的生活,服务于社会的方方面面,尤其是在酒店服务、老年护理和医疗保健等行业受到人们的广泛欢迎。导航是移动机器人技术的核心,而定位是移动机器人导航的基本问题,只有准确的定位才能保证服务机器人可靠地完成任务。针对现有移动机器人室内定位方法存在准确性偏低和环境适应性较差等问题,本文采用深度学习结合特征点匹配的方法研究了利用门牌自然路标进行服务机器人
微化学反应器是一种能够通过控制化学反应的流速等方式控制化学反应进程的微型化学设备,可以大大缩短反应时间提高反应效率并且集成化程度高,可以与微小的传感芯片相集成,近年来得到越来越广泛的重视。追踪微化学反应对于表征化学反应进程中的相关参数,如化学反应速率、转化率、平衡常数、最适温度等发挥了很重要的作用。现有的一些方法通常不易与微化学反应器集成,因此不适用于微化学反应中并且无法实现实时在线检测。为了实现
瞬变电磁全波勘探需要记录供电电极或线圈在正向导通、正向关断、反向导通和反向关断时瞬态响应的全过程,需要同步记录不同位置的多组瞬态响应信号。这些信号幅度小,需要高精度、高分辨率、多通道的数据采集系统对瞬态响应进行采集。本文设计了瞬变电磁全波勘探数据采集系统,主要用于地表浅层的地质勘探。以瞬变电磁理论为基础,通过麦克斯韦方程组及电极激发的电磁场的轴对称性设计了势函数,对电极激发的瞬变电磁场响应进行了推