面向深度学习算法的DSP关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:divide2058
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据和硬件计算资源的发展,人工智能当前进入了深度学习时代,深度学习时代具有两个最为显著的特点:一是计算量大,二是在多个应用领域效果远超传统方法。传统的人工智能方法虽然计算量相对较少,但是其性能遇到了天花板,很难进一步提高,而目前来看深度学习只要数据量足够,通过合理的网络设计以及足够的计算其在性能上往往都具有非常高的潜力。为了获得足够的深度学习计算加速,当前展开了各种硬件竞赛,比如GPU上针对深度学习库的迭代优化、集成越来越多计算资源的深度学习专用ASIC硬件、更加灵活的基于FPGA的专用硬件加速。而X-DSP是一款可编程的面向科学计算的国产高性能DSP,之前在X-DSP上开发的程序多数属于GEMM、FFT等算法。为了进一步拓展国产X-DSP的应用领域以及对国产X-DSP的体系结构进行改进,本文针对深度学习算法的特点并结合X-DSP的体系结构特征,系统的研究了在X-DSP上实现深度学习的方法;并且基于X-DSP的体系结构特点,研究了不采用复杂的数据流方式而将向量计算单元转为阵列计算单元实现深度学习算法的可能性,为未来的的国产DSP计算单元结构进行预先研究。本文在整个研究过程中,始终注重通用、高效、算法和硬件体系结构紧密结合的原则,尽可能的充分利用硬件中的计算、传输、存储资源。本文的主要工作和创新点有:1.基于国产X-DSP处理器的体系结构,对深度学习算法中最重要的卷积层进行向量化映射,将卷积运算转化成为向量乘法运算,这种方法和通用可编程GPU中将卷积运算转化成为矩阵乘法运算是不同的映射方法。在整个计算过程中,国产X-DSP中的向量部件单元、标量部件单元均得到了充分的利用,实验结果表明,多个规模的卷积在X-DSP多核上的计算资源利用率在65%左右。2.本文同样对深度学习算法中的其他层进行了研究,提出了合适的映射方法。本文将相对比较复杂的归一化层通过数据维度转换以及矩阵转换等操作变换成为适合国产X-DSP直接处理的向量形式,可以利用向量部件单元直接通过向量的形式进行归一化操作;本文同时对深度学习算法中的全连接层进行了研究,全连接层中的运算实际都是GEMM运算,通过对大规模的矩阵进行分割本文合理的实现了大规模GEMM在国产X-DSP上的映射。本文也对深度学习算法中其他的层进行了合理的映射研究。实验结果表明,多个规模的全连接层在X-DSP多核上的计算资源利用率在17%左右,归一化层在多核X-DSP上的计算资源利用率在1.3%左右,但是二者均达到了理想计算资源利用率的70%左右。本文同样对这两种类型的层在多核X-DSP的实现瓶颈进行了分析,为下一代国产DSP积累了经验。3.本文针对基于国产X-DSP处理器的卷积层映射提出了分割经验公式。由于卷积层运算中总的乘加次数是固定的,因此经验公式重点对数据传输和约束条件进行分析,对单/多输入特征图的卷积层在国产X-DSP处理器单/多核的划分提供了分割依据。经过经验公式划分后的卷积块在多核X-DSP上的实现具有最少的芯片内外数据传输量。4.本文基于X-DSP的体系结构,将其中的向量计算单元组合成为阵列计算单元,并对基于阵列计算单元的深度学习算法中层的映射进行了研究,对阵列计算单元结构的研究为未来国产DSP的预先研究打下了基础;并且为了进一步的提高阵列计算单元的运算能力,本文开发了基于Winograd加速算法6×6的块分割下的不损失计算精度的计算方法,同时提出了单次广播多次运算的方法以降低计算过程中的数据访问存储次数。仿真结果表明,在理想带宽的情况下,本文的阵列计算单元针对卷积层和全连接层的计算资源利用率可以达到90%左右。
其他文献
总线式控制系统作为工业控制系统的一种重要类型,在军民装备控制领域中得到了广泛而深入的应用。基于实时以太网通信链路的总线式控制系统已成为当今工控系统发展的主流。而国内关于此类系统性能方面的研究较少,整体水平与国外仍有一定差距。随着高端装备对控制精度,响应速度以及运行安全性等要求的不断提高,迫切需要突破实时以太网分布式架构中的系统任务调度、多节点高精度同步以及总线通信安全等核心关键技术。这些关键技术涉
在进入智能化社会和物联网普及的今天,传统冯·诺依曼体系结构在存储墙问题和功耗问题的制约下已无法满足高性能低功耗计算的需求。为弥补传统冯·诺依曼体系结构的不足,研究人员提出了存储计算融合的新模式,其中包括类神经计算和逻辑计算。忆阻器的出现使存储计算融合的可行性进一步提高,基于忆阻器的存储计算融合被广泛研究。忆阻脉冲神经网络作为基于忆阻器的类神经计算的一种模式,具有类生物性和超低功耗的优势,是目前的研
无源定位跟踪技术利用截获的辐射源发射的信号来确定该辐射源的位置和速度,自身不需要发射电磁信号,具有良好的隐蔽性,能提升探测系统在复杂电子战环境下的生存能力,是近年来探测、侦察技术研究的热点之一。在各种无源定位跟踪体制中,基于测向的无源定位跟踪技术利用辐射源来波到达角实现对辐射源的定位跟踪,在单站及多站组网观测场景中具有广泛应用。但是,在超视距观测和异步观测多目标跟踪场景,传统的测向定位跟踪技术面临
随着我国装备服役年限的增长和实战化运用水平的提高,间歇故障出现的频率越来越高,日益成为影响装备服役安全和任务成功的重要因素。由于间歇故障瞬变、随机、持续时间极短等特性,检测与诊断定位难度极大。论文在基础加强计划重点基础研究项目资助下,针对电子设备的主要间歇故障类型—板内连接型间歇故障,深入分析其间歇故障机理,开展间歇故障的检测与诊断技术研究。论文的主要研究内容包括:(1)板内连接型间歇故障机理针对
近些年来,由于深度神经网络(尤其是卷积神经网络,CNN)的发展,全世界见证了各类计算机视觉任务的成功,例如图像分类、目标检测以及视频分割等等。但是,随着视觉任务的日益发展,所需的模型结构愈来愈复杂,这给训练设备带来了沉重的存储负担。在实际应用中不可能将这些大型高性能模型直接嵌入资源受限的平台中,这将鼓励卷积神经网络模型朝着具有较小的内存和计算成本的方向发展,以便在不影响任务性能的情况下进行快速推断
高超声速滑翔式飞行器结合了飞航导弹和弹道导弹的技术优点,其高升阻比气动外形使它在滑翔飞行段具备大范围机动能力。在不断发展的防御武器威胁下,需要开展高超声速滑翔式飞行器机动突防相关研究。再入滑翔阶段是面临防御武器威胁的主要阶段,也是区别于弹道式武器突防的主要阶段。本文主要从高超声速滑翔式飞行器在再入滑翔段面向突防的轨迹规划、制导方法以及机动突防方法三个方面开展研究。主要研究内容和研究结果如下:1.研
近年来,深度学习算法已经成为机器学习领域应用的主流模型,其中,卷积神经网络和循环神经网络在图像、视频、声音、文本等各种数据对象的智能分类、检测、识别应用中效果尤其突出,已经成为最主要的两类深度神经网络模型。随着精确感知和高精度识别任务需求的不断增长,大量智能应用在采用这两类深度网络模型时均使用层数更深的结构,需要高算力专用硬件的支持,这两大类深度学习网络的加速技术一直是研究的热点问题。同时,针对不
通信技术和传感器技术的发展让智能移动终端拥有越来越强大的计算、感知、存储和通信能力,随着这些智能移动终端设备的爆炸式普及,移动群智感知(Mobile Crowdsensing,MCS)作为一种新兴的感知模式应运而生,它将众包思想与移动感知相结合,通过大量智能移动终端的不断移动和广泛参与完成大规模复杂感知。与传统的传感器网络相比,MCS具有部署成本更低、系统构建更加快捷、维护更容易、更具有可扩展性、
装备技术体系是武器装备体系在技术视角下的延伸,是装备技术整体规划的重要理论基础。装备技术体系的理论研究必须以钱学森的系统科学思想为指导,对装备技术体系的战略探讨、生成方法、结构建模、体系评估以及发展预测等方面进行研究。现有研究的主要问题包括:第一,虽然以德尔菲为代表的专家法取得了广泛的应用,但存在论证周期长、成本高、覆盖不全等缺陷;第二,虽然多视图体系结构框架设计了完备的视图产品和元模型,却没有给
同步定位与建图(Simultaneous Localization and Mapping,SLAM)是指机器人在未知环境中移动时利用所搭载传感器的观测数据进行场景地图构建,并同时估计机器人在地图中的位置及运动轨迹。随着低成本三维视觉传感器(RGB-D相机)技术的成熟,三维视觉SLAM技术成为机器人领域和计算机三维视觉领域中新的研究方向。本文以实际应用需求为牵引,利用RGB-D相机可同时采集彩色图