【摘 要】
:
知识蒸馏(KD)是一种基于教师-学生范式的知识迁移方法,通常应用于深度神经网络模型的压缩中,通过将教师模型学到的知识迁移到学生模型,使学生获得与教师相同或者相近的性能。教师模型往往参数多,性能强,学生模型往往性能较差但是参数少,方便应用与部署。KD提供一种高效的迁移方法,使学生模型同时接受来自真实标签与经过软化处理的教师模型的监督,使学生模型学到更多有效的知识,达到提高性能的目的。传统的知识蒸馏方
论文部分内容阅读
知识蒸馏(KD)是一种基于教师-学生范式的知识迁移方法,通常应用于深度神经网络模型的压缩中,通过将教师模型学到的知识迁移到学生模型,使学生获得与教师相同或者相近的性能。教师模型往往参数多,性能强,学生模型往往性能较差但是参数少,方便应用与部署。KD提供一种高效的迁移方法,使学生模型同时接受来自真实标签与经过软化处理的教师模型的监督,使学生模型学到更多有效的知识,达到提高性能的目的。传统的知识蒸馏方法分两个阶段,第一阶段需要提前训练好一个功能强大的教师模型,第二阶段则是让学生拟合教师的输出,然而现实情况中这样的教师模型往往无法获得,并且两阶段的蒸馏形式往往效率不高。本文基于无教师状态下的模型蒸馏问题,主要做了如下研究工作:(1)提出一种基于互学习的在线蒸馏方法(ML),ML是一种高效的一阶段蒸馏方法,通过各子模型的输出平均化集成一个虚拟教师替代预训练的教师指导模型学习,并且在模型之间添加了结构性知识的传递,进一步增强了模型的整体性能。(2)提出一种自适应的、基于性能评估的在线蒸馏框架(SPL),在ML方法的基础上充分利用不同子模型在训练过程中表现出的差异性指导学生学习,在学生模型间传递更多的知识,从而增强模型的泛化性。SPL的关键部分是一种权值评估机制(LFS),通过对前一阶段各模型的训练情况进行评估打分,表现越好的权值越大。然后各模型的输出按照评分进行加权求和,得到一个虚拟教师,通过教师指导各个学生进行训练。(3)将所提的两种蒸馏方法在三个常见的公共数据集CIFAR10、CIFAR100以及Tiny-ImageNet上进行验证,并且与当前的一些主流算法进行对比分析。此外,本文还对最终的SPL框架做了一系列测试证明框架的高效性。实验结果表明,所提的ML算法比现有的双向互学习算法DML更加高效,所提的SPL蒸馏框架相比于大多数目前已有的在线蒸馏方法是高效的、可行的,并且适用于不同分类任务、数据分布不均匀等大多数应用场景。图[26]表[5]参[69]
其他文献
随着我国城市化的不断加快,城市人口不断增加,导致城市地面交通时常会发生拥堵现象。为了缓解城市人口增多对地面交通造成的压力,越来越多的城市开始大力发展地下交通系统。城市地铁是地下交通系统的一个重要组成部分,城市盾构隧道线路不断增多,这又会导致盾构隧道附近出现地面堆载现象的概率增大。大面积的地面堆载会引起隧道发生应力重分布,导致隧道衬砌结构的受力和变形发生改变;当堆载过大时甚至会导致隧道衬砌发生破坏、
中国的苹果种植面积是世界上最大的国家,也是世界上苹果产量最高,苹果消费量最高的国家,但由于在苹果的分选和储运环节缺少对品质变化的有效监测,我国苹果采摘后损失率高达20%,远高于美国等发达国家。在苹果的分选和储运环节实现高效的水果无损检测是保证苹果质量的前提,但国内大部分果园仍以手工分选为主,机器分选为辅,劳动强度大、分选一致性低。面临国内对于各行各业现代化的要求,水果行业已经不仅限于对产量上的比较
采用铝热还原氮化法合成AlON粉体,对合成的粉体进行球磨和抗水解处理,在水基溶液中通过化学沉淀法在粉体表面进行均匀包覆,最后通过无压烧结制备AlON陶瓷。研究了 AlON粉体合成所涉及的原料氧化铝粒径、原料配比、混料方式、反应温度对合成粉体物相与形貌的影响;探究了球磨工艺对球磨后粉体物相与形貌的作用;探索磷酸处理对粉体物相、形貌、抗水解性能的影响;分析烧结温度、烧结助剂引入方式对制备的AlON陶瓷
随着红外技术的日趋成熟,同时目标检测算法也在快速发展,这两种技术如果得以深度融合,必将可以解决现实生活中的很多问题。为了实现电力设备故障实时在线监测问题,解决人工效率低下,提高电力设备故障诊断水平,研究了不同的目标检测方法对实时检测的适用性,研究了如何扩充数据集使得数据的结构更加完善,研究了如何根据红外图像的温度判断电力设备的热故障等级,并研究了如何制作GUI界面使研究内容更好的展现出来。首先针对
三维建模技术在文物保护、灾害评估、智慧城市等领域具有重要意义。目前的三维模型构造技术主要包括二维图像结合几何造型、三维激光扫描、无人机摄影测量等。每一种特定的建模技术具有一定的局限性,三维激光扫描技术对大型构筑物扫描时,会存在扫描死角即无法获取顶部信息;无人机进行倾斜摄影测量,可快速获取目标物表面的空间信息,但对于底部信息无法获取,构建的模型则会严重失真。数据融合已成为趋势,可解决单一数据源在模型
碳纤维增强复合材料(Carbon Fibre Reinforced Plastics,简称CFRP)具有质量轻、刚度大、抗拉强度高和弹性模量高等优点,能够长期承受酸、碱性溶液环境的腐蚀作用。与普通水泥砂浆相比,掺入橡胶后试件的抗压强度显著降低,抗冲击次数增加,极限应变和峰值应变增加,解决了普通水泥砂浆脆性破坏的缺点。采用CFRP加固橡胶水泥砂浆可以有效的增强橡胶水泥砂浆的强度,抗裂性能、抗冲击性能
恶性肿瘤能够威胁人类的生命和健康,而天然产物及其衍生物又是研发抗肿瘤新药物的重要来源。天然产物-川芎,是一种伞形科的中药植物,适宜治疗瘀血阻滞、头风头痛、风湿麻痹等病症。川芎嗪(Tetramethylpyrazine,TMP)是一种具有药理活性的生物碱单体,可以从川芎的根茎中提取分离,在临床上用于神经疾病及心血管疾病的治疗,其潜在的作用机制包括抗肿瘤、抑制血小板聚集、增强免疫功能以及保护机体不受自
随着我国经济向高水平、高质量迈进,加快建设交通强国、构建现代化高质量国家综合立体交通网提出了新的更高要求。根据2021年2月中共中央、国务院印发的《国家综合立体交通网规划纲要》,到2035年,国家民用运输机场达到400个左右。2020年底,全国颁证的民用运输机场241个,这意味着未来15年,中国将新增150多个机场,平均每年新增10个机场。截止2021年4月我国在册通用机场数量已达339座,如果全
电力行业对于各领域的发展都起到重要作用,是我国经济快速发展的基石。电力系统最核心的设备就是变压器,变压器能否正常的工作直接决定了电力系统的运行质量优劣,因此在变压器油中溶解气体分析(Dissolved Gas Analysis,DGA)技术的基础上,实现的变压器故障诊断的准确度就变得尤为重要。针对现今变压器故障诊断方法准确度较低、单一智能算法的自身局限性、数据质量要求过高的问题,本文提出了一种基于
氢能作为一种清洁环保的资源,如今备受关注。在众多制氢方法中,最有效的是在电催化剂作用下分解水。它具有效率好、产品纯度高和清洁无污染等优点。析氢反应(HER)是一个二电子快速反应过程,而析氧反应(OER)是一个缓慢的四电子反应过程。因此,OER过程的动力学速度决定了催化裂化水的效率。为了降低能源消耗,构建出色的OER催化剂非常重要。目前,贵金属Pt和RuO2分别是性能最优异的HER和OER催化剂,但