面向硬件实现的深度神经网络模型优化与加速方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：mengfengye

【摘要】

：

【作者】

：

陈凯

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2021年01期

【关键词】

：

深度学习深度神经网络硬件加速器软硬件协同设计量化深度神经网络优化 ONNX

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近十年来,深度神经网络（DNNs）作为一种备受关注的技术,它在多种应用场景下快速发展,推动了各种产业化的创新变革和转型,将人工智能更多地带入了人们的生活。伴随着数据量的增加、算力的提升、算法的不断创新以及相关开源框架的普及,DNNs的使用出现了井喷式的爆发增长。目前DNNs被广泛应用于包括智能机器人、自动驾驶、计算机视觉、语音处理在内的诸多领域,并且在这些场景下,DNNs往往能够提供超越人类准确性的SOTA性能表现。然而,DNNs出色的性能是以高计算复杂度为代价的,同时考虑到大多数DNNs模型的巨大参数规模,其算法在能量消耗上毫无疑问是巨大的。随着应用场景的增多,DNNs处理平台出现了向定制化加速硬件发展的趋势,越来越多的DNNs需要被部署到内存较小和计算资源受限的边缘设备上,例如手机以及一些涉及安防的端侧设备,这就需要DNNs以更节能的方式运行。在这种情况下,能够高效处理DNNs以灵活地实现高性能和高效率,又不牺牲对应场景下的性能表现,对于DNNs优化部署十分重要。另外,尽管开源框架在设计、训练和部署DNNs到通用计算设备（如CPU、GPU和DSP）上非常流行,但在定制化设计的可重构硬件加速器领域,并没有现有的通用优化框架,能够优化DNNs部署配置,并进一步指导具有特定精度和效率要求的硬件设计。因而,本文重点关注DNNs高效部署中的存在的问题,将软件优化和硬件设计紧密结合起来,以现有的开源框架作为模型优化的出发点,给出了一种新的、适合硬件推理的解决方案。在这篇文章中,我们提出了一种跨框架的、面向高效硬件推理的DNNs优化框架。首先,我们利用ONNX这种具有统一标准的开源格式作为中间表示,将来自其他开源框架下的模型转换到ONNX格式,并在这个过程中提供了一些例如层间算子融合的个性化操作选项。通过这种转换,既解决了在各种边缘计算设备上部署DNNs存在的跨框架部署适配困难的问题,又显著地降低了将来自多框架的模型部署到多种硬件平台上的整体复杂度。在将DNNs转换到ONNX格式之后,我们通过动态定点量化DNNs中的各种参数来降低数据精度,减少数据比特位宽,进而减少数据移动和存储开销。在这个模块,我们提出了一种权重等价变换优化算法,该算法不需要重训练调整超参,只需要利用少量无标签数据对DNNs网络的权重和激活进行统计分析,通过添加一个BN层算子,从而进一步采用等价变换的方式来优化对应权重和激活的动态范围,提高量化精度。同时,考虑到DNNs当前在计算机视觉领域的巨大成功,我们继续探索了几个主流的图像分类和目标检测模型在上述优化策略下的表现,该过程采取完全基于DFP的高效硬件推理模拟的方式进行。更进一步,基于DFP硬件推理方式,文章研究了几种DNNs在各种比特位宽量化策略下的性能表现,分别针对权重比特位宽约束的量化和激活比特位宽的量化给出了详细的实验分析,以确定最优量化策略,为相关场景下制定化硬件加速器的设计参数选择提供指导性信息。与此同时,通过一个简单的DNNs编译器,可以将模型优化的结果,包括更新后的ONNX文件和相关的量化尺度信息进行编译,生成AI加速器硬件推理过程中需要的、包含重要信息的二进制文件。此外,为了进一步优化DNNs的硬件推理过程,我们提出了一种可重构的DNNs加速器硬件架构的基准参考设计,以实现高效、准确的可重构硬件推理过程。基于激活约束的量化实验结果表明,与FP-32准确率相比,采取12比特数位宽进行激活量化实验中用到的目标检测模型时,其mAP损失最多为1.5%,而对于分类模型来说,采取8比特位宽进行量化时,其Top-1的准确率损失不超过1.2%。

其他文献

基于视频的非接触式心率测量及对比平台搭建

心率是人类重要的生命体征,心率变化和心脏疾病密切相关,是评估人类健康状况的有效指标之一。心率检测按照是否与人体接触,可以分为两大类:接触式和非接触式。接触式心率检测通过传感器、电极等装置与人体直接或间接接触来获取生理信息,准确率较高,但是存在不方便检测、容易产生交叉感染、检测设备高昂等问题,因此在应用上具有较大局限性。非接触式心率检测是一种无创、便携且价格低廉的检测方式,可以实现远程生理监控,应用

学位

IPPG人脸检测心率测量心音信号皮肤提取欧拉放大

医联体模式下考虑多资源约束的手术调度研究

随着社会经济向前的不断发展,医疗服务市场需求规模的越来越大,如何有效地解决医疗服务供给和日益增加的医疗服务需求之间的不平衡问题越来越重要。同时,我国正在进行着医联体等医疗改革探索实践道路,争取在医联体视角下合理地分配医疗资源,实现优质医疗资源向基层配置,解决当前看病难的现实问题。医院在社会需要和自身经营的双重压力下,工作的重点就是要做好医院运营管理,即提高服务能力和市场竞争力。作为医院的关键部门的

学位

医联体择期手术资源约束遗传算法蚁群算法

大规模低轨卫星组网方法与性能评估

随着卫星通信技术的不断发展,卫星组网融入地面通信网络已经逐渐成为可能。地面网络虽然高速发展,但无法应对突发的自然灾害,偏远地区也由于成本问题无法达到网络覆盖,对于上述区域的用户,卫星入网是他们的一个重要的选择。对于地面用户的网络需求飞速发展的问题,广覆盖高带宽的空间卫星网络是一个很好的缓冲方案。在未来网络建设中,卫星网络是不可缺少的一环。在众多种类的卫星中,LEO离地高度小,传播延迟少,信号衰减小

学位

大规模低轨卫星系统拓扑量化分布式路由故障管理

基于多目标优化的水环境治理研究 ——以太湖流域为例

随着我国经济社会的迅速发展,经济效益与湖泊环境之间的矛盾日益激化。政府针对湖泊水环境治理问题投入了大量资源,但是治理效果和治理效率并没有达到预期,因此寻找一套切实有效的湖泊水环境治理决策方案迫在眉睫。湖泊流域中的各用水主体相互关联、彼此制约,这就要求流域内的经济社会发展必须以流域的整体利益作为目标来实现。湖泊污染的输入来源于工业、农业和城市发展等活动,营养投入是这些活动的副产品,这些活动的收益与投

学位

太湖污染湖泊营养化多目标优化水环境治理数据包络分析

锂电池管理系统SOC估计

近年来,储能技术随着全球新能源发电、电动汽车及新兴储能产业的发展而持续进步。当前的储能技术主要包括抽水蓄能、洞穴式压缩空气储能和电池储能,其中以锂离子电池（简称锂电池）为核心的电池储能技术是目前最具发展潜力的储能技术之一。由于锂电池相比其他电池在能量密度、循环寿命等方面具有更多优势,以锂电池为基础的储能技术开发受到广泛关注。为保证电池使用过程中高效的工作性能及稳定的安全性能,需要通过电池管理系统（

学位

锂电池模型参数辨识SOC估计状态初值R-AUKF算法

统计试验法在制订混凝土强度验收标准中的应用

统计试验法又名蒙特卡洛（MonteCarlo）法,是以概率论数理统计理论为指导的一类计算方法。随着电子计算机的发展,这一方法已广泛应用于数学、物理、工程技术等各个领域,提供问题的数值解。

期刊

基于深度神经网络的图像去噪算法研究与优化

图像去噪作为计算机视觉和图像处理领域的一项基础研究,在安防监控、医疗诊断、自动驾驶等各种实际应用中都有极其重要的意义。传统的图像去噪算法通常涉及复杂的优化问题,需要人工设置多个参数,因此去噪过程耗时且效果欠佳。近年来随着人工智能的迅猛发展,基于深度神经网络的图像去噪算法受到广泛关注。本文对基于深度神经网络的图像去噪算法进行详细的研究与优化,主要工作有:（1）针对现有算法对图像特征信息利用不足、去噪

学位

深度神经网络图像去噪多尺度特征残差结构注意力机制空洞卷积

一种用于高质量生理电信号测量的有源电极设计

对人体的生理电信号进行测量是一种能够方便快捷的获知身体健康状况的手段,而测量用的电极质量在很大程度上影响着信号记录的质量。通过引入有源电极可以有效减小干扰,提高信号采集的质量。但是目前的有源电极设计多为一阶滤波模型,存在着过渡带较长、阻带衰减慢的缺点,因此本文提出了一种采用二阶滤波模型的有源电极,能有效克服上述缺点,并对其进行了系统研究。论文的第二章描述了二阶高通滤波模型有源电极的设计方案,对其电

学位

生理电信号测量有源电极二阶滤波噪声分析非线性规划求解

多基线大纵深三维成像方法研究

计算机视觉和数字摄影测量技术是实现目标三维信息获取、三维场景复原的重要方法之一。目前,基于该方法发展较为成熟的双目立体视觉技术已广泛应用在摄影测量、城市测绘、文物考察等各个领域中。多基线三维成像方法基于双目立体视觉技术,存在精度随基线增大而提高的规律。但对大纵深真实场景成像时,传统的定基线三维成像方法在不同远近距离上的深度分辨和测量误差呈现非线性变化,随着景深增大,其在成像精度、成像距离等方面无法

学位

多基线大纵深三维成像深度相对误差

基于RSSI的蓝牙散射网调度算法研究

蓝牙技术是组建个人局域网时常用的一种技术,蓝牙的基本网络拓补称为微微网,多个微微网之间通过共用某些节点组成了散射网。在散射网中,一个节点在同一时刻只从属于某个特定的微微网,散射网的应用拓展了蓝牙技术的使用场景,例如一对多蓝牙音频传输。在一对多蓝牙音频传输场景下,作为桥节点的音频接收设备需要周期性地加入各音频源设备为主设备的微微网中,频繁切换微微网不仅会造成通信资源浪费,同时更会出现音频传输不同步现

学位

排队论Matlab散射网调度接收信号强度指示（RSSI）

面向硬件实现的深度神经网络模型优化与加速方法研究

与本文相关的学术论文