【摘 要】
:
随着深度学习、大数据等应用对计算机性能的要求逐渐提高,传统的基于CPU的架构已难以满足这些应用的计算需求,将CPU与作为加速器的GPU结合构成的异构多处理器片上系统(Heterogeneous Multiprocessor Systems-on-Chip,HMPSoC)成为主流趋势,GPU除擅长处理3D图像渲染外,还能进行大规模通用并行计算。在CPU-GPU异构架构中,高速缓存(Cache)是缩小
论文部分内容阅读
随着深度学习、大数据等应用对计算机性能的要求逐渐提高,传统的基于CPU的架构已难以满足这些应用的计算需求,将CPU与作为加速器的GPU结合构成的异构多处理器片上系统(Heterogeneous Multiprocessor Systems-on-Chip,HMPSoC)成为主流趋势,GPU除擅长处理3D图像渲染外,还能进行大规模通用并行计算。在CPU-GPU异构架构中,高速缓存(Cache)是缩小处理器和主存储器带宽差距的重要设计,对系统整体性能有重要影响,多采用多级层次结构,CPU和GPU核心能够共享末级高速缓存(last-level cache,LLC)。技术上的限制导致无法通过持续增大LLC容量来满足日益增长的应用需求,因此未来处理器需要依赖有效的Cache管理机制来从有限的LLC容量中获得更高的性能。但经上级Cache过滤后,到达LLC的访存请求局部性变差,传统架构上的Cache替换算法主要基于访存局部性设计,难以有效利用Cache空间。除此之外,由于CPU、GPU的体系结构差异,CPU和GPU访存需求的频率、模式和局部性等特征不同,并且CPU和GPU之间会因争夺LLC空间而存在相互影响。总体来说,LLC上CPU和GPU各自访存行为特征及特征间差异给LLC管理策略的设计带来挑战,本文旨在基于CPU和GPU应用访存行为特征分析,设计适用于CPU-GPU异构多处理器架构的共享LLC替换算法。手机、平板电脑等便携智能终端是日常生活中使用最广泛的一类嵌入式异构系统设备,与PC端相比,对成本、体积及功耗等有更严格的要求,这就使得存储和计算资源量往往受限。智能终端中大型手机游戏应用对系统性能要求最高,共享LLC能否在大型手游运行时被有效利用,一定程度上决定着智能终端设备的性能上限。为此,本文首先设计了一种针对手机游戏应用的共享LLC管理策略,然后在通用架构上改进算法使其能够适应不同的应用场景。基于对手机游戏应用访存特征的分析,本文设计了基于缓存旁路和重用行为预测的共享LLC替换算法,首先设计了缓存旁路机制,在Cache外的缓冲区LRUbuffer内被命中一次的数据才能进入Cache,进而旁路局部性差的访存请求,减少Cache上的替换操作;然后针对CPU和GPU访存频率和访存模式差异设计了 RDPV(reuse distance prediction value)参数调整机制,RDPV 作为所属 Cache数据块重引用间隔的估计,能够根据最近访问特性和访问频率做调整;最后通过在Cache的Insertion和Hit-promotion阶段使用这两种机制进行共享LLC的管理。在实际的CPU-GPU异构多处理器架构中,应用场景更加复杂,将GPU应用的缓存敏感性纳入算法设计,对缓存旁路机制和参数调整机制分别作出改进,LRUbuffer仅用于过滤GPU不敏感型应用的访存需求,RDPV则根据CPU和GPU的访存频率和命中次数动态调整,最终实现提高共享LLC的利用效率和系统整体性能的目标。实验结果表明,对于大型手机游戏应用,基于从ARM Cortex-A76架构平台末级缓存层抓取的访存轨迹文件模拟访存行为,本文的方法相比于传统的LRU替换算法在命中率上提升4.2%,内存访问流量下降6.3%;对于在gem5-gpu上直接运行的CPU-GPU混合应用负载,本文方法相比于传统的LRU在性能上提升10.3%,同时实现算法所需的硬件开销仅占LLC容量的0.58%,LRUbuffer仅需24KB硬件空间。
其他文献
在地震勘探行业中,地震数据的读取与显示是地震处理与解释的关键一环,随着浅层地震勘探、工程地震勘探的兴起,基于Linux的地震处理、解释系统已经无法适应快速发展的局面。本文详细介绍了SEGY数据格式,并重点分析了SEGY数据的难点,借助Python实现了地震数据的可视化,满足了施工现场快速实现地震数据的处理与成像的要求,对现场工作有一定指导意义。地震数据的读取与显示是地震处理与解释的关键一环,
参考规范是指对专业知识点的相关文本描述,用于指导生成文本满足与参考规范的语义相关性和知识点匹配性,参考规范指导下的文本生成是自然语言处理领域中的一个困难问题。现有可控性文本生成方法主要针对情感、态度等通用性质,不适用于上述任务中对生成文本的复杂专业控制要求。在参考规范指导下的专业文本生成任务中生成文本需同时具备三个要求:语言连贯,符合语言学规范;内容与参考规范语义相关;知识点匹配性较好。针对这些要
目前,医疗健康进入大数据时代,很多医疗记录被电子化、数字化存储。随着大众对医疗健康水平要求的不断提高,医疗检查与检查报告的质量受到普遍关注,是科学医疗诊断决策的重要依据。但是医疗检查报告的生成是一项非常复杂且繁琐的工作。为了保证报告内容是对医疗检查过程的完整、准确和规范的记录,需要对检查项目、检查内容和检查方法等使用标准医学术语进行规范记录。然而目前检查报告基本都是在检查结束后,由负责检查的医生完
公共预算作为提供公共产品和服务的最重要的政策手段之一,历来受到政府和相关部门的高度重视。1999年开始的部门预算改革,将部门预算方式由自上而下改为自下而上,全面推行国库集中收付制度和政府采购制度,将政府各项资金纳入全口径预算,在各级地方政府建立了以控制为主要取向的预算制度。部门预算改革不仅是上述技术性的改革,其本质是政治性的改革,将改革前各个支出部门的预算权力集中到了财政部门手中,从而实现了财政部
网络规模日益庞大,网络基础设施愈加复杂,一系列网络安全问题随之凸显。不法分子通过安全漏洞侵入网络进行恶意攻击并传播病毒,造成服务器崩溃和网络瘫痪,给企业造成巨大的经济损失。在这种情况下,流量测量变得十分必要。网络流量测量在交换机等网络转发设备上对数据包进行统计和分析,实时收集流量特征既能够检测出潜在的网络安全威胁,维护网络稳定,还可以为网络性能诊断、拥塞控制、负载均衡、网络计费等网络功能提供重要信
图像的分辨率是指图像区域内像素点的数目,代表图像信息的存储量。日常生活中,由于采集环境和设备的限制或数据传输的要求,大量有价值的图像,以含有低信息量的低分辨率形式存在。而单幅图像超分辨率算法,就是使用数字图像处理技术,由一幅低分辨率图像自身,重建出包含更多图像信息和细节的高分辨率图像,最终满足生产和生活的需要。因其在医学成像、卫星遥感影像以及监控系统等领域的广泛应用,单幅图像超分辨算法一直是图像处
超像素分割作为重要的图像预处理操作在图像处理和图形学中有着广泛的应用,例如图像分割、显著性检测、目标轮廓提取、图像压缩等。边界的贴合性和形状的规整性是评价算法的主要指标,这两个评价指标很难同时兼顾,大多数分割方法更加重视边界分割准确性而忽视了超像素的紧凑性。传统的基于像素点的分割方法需要对每一个像素点进行分析和聚类,所以生成的每一个区域的边界贴合性很好。因为其边界是锯齿状的,这些超像素方法在一些视
深度神经网络的高效推断过程通常需要高性能计算设备,但在资源受限的移动端或嵌入式实时系统中难以推广。神经网络剪枝技术通过减少网络连接的数量,能降低网络的复杂度,推动神经网络在计算资源受限条件下的应用。深度网络中冗余神经元剪枝算法取得了较大研究进展,但存在两个关键问题:1、目前的剪枝算法缺乏理论分析方法,无法对预先设置的剪枝比例给出合理的解释;2、基于全局剪枝比例的权值或神经元修剪可能会导致神经网络中
可穿戴外肢体机器人通过给人体安装额外独立的机械肢体,为穿戴者提供支撑负载等辅助功能,提高单人作业能力及作业范围。具有四个外肢体的多肢体机器人比单肢体和双肢体机器人的稳定性更好,可实现的任务模式更多,作业能力和作业效率也会有极大的提高,可广泛应用于工业、建筑、医疗、军事、航天等领域,具有极其广阔的发展前景。对多肢体机器人肢体和背板的建模及运动控制方法等方面进行研究分析可以促进多肢体机器人的实用化,具