面向结构剪枝压缩算法的DNN加速器电路设计

来源 :东南大学 | 被引量 : 0次 | 上传用户:echo_seaman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度神经网络(Deep Neural Network,DNN)在语音识别、图像分类和人脸检测等方面都取得了非常好的效果,但在对功耗和实时性有较高要求的移动端设备上,部署存储密集型和计算密集型DNN有较大难度。为了解决该问题,通常对DNN进行压缩来减少模型参数量和计算量。因此,设计专门面向DNN压缩算法的低功耗、高吞吐率加速器具有重要实用意义。本文总结了卷积神经网络(Convolution Neural Network,CNN)基本结构、经典算法和加速器常用性能优化方法,面向结构剪枝与幂指数量化相结合的压缩算法,设计了高吞吐量、低功耗DNN加速器。首先,通过分析影响加速器性能因素设计了加速器架构,基于加速器架构模型,构建了访存数学模型和能耗模型,选取了最优参数组合。其次,采用参数化设计,应用了三种重用模式以减少访存次数。最后,对结构剪枝与幂指数量化后的网络参数进行编码处理,设计专门的计算单元对编码权重进行拆解。并详细地介绍了加速器关键电路功能和仿真验证。基于中芯国际TSMC 40nm工艺库综合结果,在工作频率300MHz且工作电压为1.1V条件下,硬件加速器电路总功耗为0.14W,加速器面积为8.22mm~2,实际平均吞吐率相对于Alex Net和VGG-16分别为213.21GOP/S和240.05GOP/S,峰值吞吐率为268.8GOP/S,能效比约为1.92TOPS/W。与EIE、Cambricon-X和Ze NA等加速器相比,本文面积和能效比分别取得4.0~7.0倍和1.6~3.3倍的提升。以米联Zynq-7100开发板为实现平台,在运行频率为200MHz且以VGG-16为测试网络的条件下,测得加速器功耗为2.854W,平均吞吐率为160.48GOP/S,能效比为57.3GOPS/W。本文设计的面向结构剪枝压缩算法加速器对人工智能终端轻量化、低耗能研究与设计具有一定参考意义。
其他文献
随着物联网芯片市场不断扩大,竞争也越发激烈,物联网芯片更新换代速度日益提高,芯片的功能和复杂程度的提升也在不断地加大验证的难度。传统的验证方法如直接测试等已经很难满足如今芯片的规模,验证技术逐渐成为制约芯片发展的瓶颈。验证是否完备和高效直接影响芯片开发周期和成本,为了适应芯片设计和规模,验证技术也快速发展起来。验证方法学经过不断地更新换代,通用验证方法学(Universal Verificatio
心脏磁共振图像(Cardiac Magnetic Resonance Imaging,CMRI)分割对于心脏疾病的诊断是非常重要的一个步骤,该任务通常需要能够分割出左心室、右心室、心肌区域。在过去数年间有提出过许多相关的自动化分割方法,并且取得了一定的效果。但是,基于有监督的图像分割算法,由于标签数据仅有心室舒张末期(ED,End Diastolic)和心室收缩末期ES(End Systolic)
由于低功耗蓝牙(BLE)Beacon是物联网终端中非常重要的设备之一,因此对于其协议规范一致性和性能指标的测试非常重要。目前BLE Beacon已规范测试的参数主要集中在RF层,而对于BLE Beacon碰撞概率、发现延时、抗干扰性能等存在影响的参数,协议中却没有给出明确测试规范。因此能够描述BLE Beacon测试的参数和相应的测试方法是目前亟待解决的问题,这对于BLE Beacon设备的测试和
电子束光刻技术(EBL)是一项在半导体和纳米技术领域都起着重要作用的微细加工技术,相比于普通光学光刻技术,其具有着高分辨率、制掩模板能力强、高精度加工、容易控制等优势。但是MEMS微结构的精细化制备有着一套繁杂的流程,若采用实验的方式来生产加工,最后需要反复测试来完成微结构的制造,过程中需要投入很多的时间和资金。如果通过建立模型对其刻蚀过程进行计算机模拟仿真,来实现对光刻结果的预测,将可以有效地缩
芯片为信息技术、人工智能的发展提供有力的硬件支持,在智能生活、交通、医疗等领域被广泛应用。So C芯片是超大规模集成电路发展产物,从So C芯片设计、制造、封装,到应用,芯片测试贯穿于整个研发过程,并在降低成本、缩短研发周期、提高流片率等方面有着显著作用。本论文设计的芯片自动化测试平台由两个功能部分构成,将通过可灵活编程FPGA和处理器进行测试回路部分称为测试仪,将通过微处理器与上位机通信实现多芯
近年来机动车保有量与驾驶人数量激增,车辆套牌、驾驶人失格驾驶等涉牌涉证违法行为频发,道路交通安全管理工作面临严峻考验。为助力公安交通管理部门提质增效,实现对于风险隐患车辆的精准管控与智能缉查,本文基于公安交通集成指挥平台汇聚的海量卡口过车数据,结合相关机动车数据、驾驶人数据、违法数据,围绕车辆特征画像标签化建模与重点车辆通行轨迹实时追踪缉查开展研究,主要研究内容与成果如下:首先,本文提出海量卡口过
基于高速公路机电集控系统(Supervisory Control And Data Acquisition,SCADA)的电气量数据进行故障检测是智能交通系统中的一项关键技术,对高速公路机电系统的状态感知和管理运维具有重要意义。为了解决目前高速公路桥梁机电设备状态感知有效手段缺乏的问题,针对机电设备在电气量监控系统中反映出的变化,对跳闸故障进行检测,并对具体故障类型进行分类,是本文主要的研究内容。
学位
物联网实现物与物、物与人的广泛连接,海量物联网设备出现在生活中。低功耗蓝牙(BLE)作为解决物联网内通信的重要技术,因其低功耗、连接建立速度快被广泛应用在信息推送、仓储管理和个人消费等场景下。海量BLE设备同时广播会影响设备间的信息交互,为了解决上述问题,急需研究一种能够有效降低广播冲突的算法。本文设计了一种新的低冲突广播算法,通过随机化广播信道在广播事件内的出现时间,增加广播信道出现情况的可能性
学位