【摘 要】
:
认知科学和神经科学领域的大量研究表明,人脸和语音之间存在潜在的关联,利用这种关联,可完成跨人脸-语音生物特征识别。跨人脸-语音生物特征识别技术在现实生活中具有一定的实用性,可以促进认知科学和人机智能交互技术的发展,具有非常重大的现实意义和广泛的应用前景。针对跨人脸-语音生物特征识别技术目前存在的一些问题,本文提出了一系列解决方案:(1)针对模态内和模态间差异导致的误配问题,提出了基于双重约束的三元
论文部分内容阅读
认知科学和神经科学领域的大量研究表明,人脸和语音之间存在潜在的关联,利用这种关联,可完成跨人脸-语音生物特征识别。跨人脸-语音生物特征识别技术在现实生活中具有一定的实用性,可以促进认知科学和人机智能交互技术的发展,具有非常重大的现实意义和广泛的应用前景。针对跨人脸-语音生物特征识别技术目前存在的一些问题,本文提出了一系列解决方案:(1)针对模态内和模态间差异导致的误配问题,提出了基于双重约束的三元组损失的跨人脸-语音识别模型。该模型设计了一种基于双重约束的三元组损失,可以同时实现模态间判别性约束和模态内约束,有效地缓解了模态内和模态间差异。同时,该模型在损失函数中还融合了身份损失和中心损失,前者用来确保特征的可分性和训练的稳定性,后者用来拉近同一类别样本之间的距离。(2)针对模态间缺少交互带来的关联学习不充分问题,以及训练样本形式单一带来的模型泛化性能不足问题,提出了一种基于双向困难五元组损失的跨人脸-语音识别模型。该模型在人脸子网络和语音子网络的顶端引入了一种新颖的加权残差网络模块,该模块引入了加权残差结构以及非线性激活单元,并且所有参数由两个模态共享,确保模态之间可以充分交互。另外,该模型从困难样本挖掘角度,设计了一种双向困难五元组损失及对应的双向困难五元组构造策略,其中的双向困难五元组由不同的形式的困难三元组构成,有效地提高了模型的泛化性能。(3)针对现有的跨人脸-语音数据集标签单一导致的监督信息不足问题,提出了一种结合自监督学习的跨人脸-语音识别模型。该模型将监督学习和自监督学习方法整合进了一个框架,监督学习部分保留了身份损失,自监督学习部分提出了一种跨模态深度聚类框架,采用一种模态特征的聚类结果作为另一个模态对应特征的伪标签,通过优化预测标签与伪标签的损失来引导网络的学习。在公开的人脸语音数据集Voxceleb1上的实验结果表明,相比现有模型,本文提出的三种模型在四种跨模态匹配任务上均取得了有效提升。
其他文献
随着云计算技术的快速发展,车载网络与云计算技术的结合也日趋紧密,出现了各种车联网及智能交通应用。然而,在利用云平台为车载网络应用提供服务的同时,目前的车联网研究也存在诸多问题。首先,车联网中数据收集模式单一,且数据冗余较大,传输成本高;其次,云端服务器与车载网络相隔遥远,由于网络带宽、传输错误等因素导致传输延迟,实时性无法保证;最后,由于用户数据处于共享的商业环境中,隐私泄露风险极高。边缘计算具有
促进乡村振兴和发展普惠金融是我国的重大战略部署,二者在一定程度上具有耦合性。本文基于浙江省52个县市的数据,在构造普惠金融与乡村振兴评价指标体系、运用熵值法测算指标权重和综合评分的基础上,使用耦合协调度模型对浙江省县域普惠金融与乡村振兴协调发展关系进行分析。结果表明,浙江省县域普惠金融与乡村振兴协调发展水平整体偏低,并呈现明显的“东高西低、沿海高内陆低”空间分异特征,中心区域具备辐射效应,并据此提
研究目的:本文研究目的在于从运动学的轨迹、位移、速度角度,描述和分析探戈舞中的并退左滑轴转步(Fallaway pivot)在人体下肢各个环节的运动状态,运动时值,运动重心轨迹与变化,关节角度变化,以科学有效的方式分析探戈舞中的并退左滑轴转步(Fallaway pivot)动作特征,帮助标准舞运动员更加深入的理解在探戈舞中的动作原理,指导标准舞运动员更加科学理解动作的原理,指导运动员在技术水平上的
我国的竞技健美操实力一直处于世界前列,但日趋激烈的竞赛环境对运动员的竞技能力提出了更高的要求,为了能在比赛中拉大与对手的差距,扩大自身竞争优势,提高运动员的竞技能力水平是当务之急。竞技能力作为影响成绩的根本内因有着极其复杂的结构,这一复杂结构就需要我们深入探究其内部构成要素间的关系,理解结构所具有的特征和功能,总结一般性规律,从而为重新认识竞技能力并找到合适的训练方法提供科学的依据。本文以北京体育
随着公司决议纠纷的增多,行为保全在相关案件中的独特价值也得以显现,不仅能帮助公司争夺控制权,还能及时阻止决议瑕疵的发生。然而,立法和实践中认定标准的不明使得行为保全申请阻力重重。为了解决这一问题,需要在借鉴美国临时禁令制度的基础上,结合公司决议的特殊性,分析行为保全的具体适用标准。考虑到司法介入公司业务经营判断的结果以及公司自治原则,法官应采取审慎态度分析行为保全的必要性和紧迫性。具体而言,法官应
如今,各城市交通部门通过增添、调整公共交通线路等方式对公共交通系统的结构进行优化以应对日益增加的交通压力。为了有效地评估线网优化的效果,需要对乘客出行方式进行较为准确的预测。出行方式预测的传统方法是使用Logit模型及其改进模型,该方法存在个人信息数据较少、较难获取及难以刻画多变量之间非线性关系两个主要问题。对此,本文从海量的IC刷卡数据,提取出乘客历史出行记录。通过GPS数据、静态线路信息表等提
激光诊断技术具有非侵入性、实时、在位、高灵敏度和高时空分辨等优势,被广泛用于测量气体流场的速度、温度和组分等关键物理量,已经成为气体流场诊断的主要工具。其中,激光诱导等离子体光谱技术具有实验装置简单以及可实现多种组分同时激发等特点,特别是该技术在定量测量方面具有较大优势,使得该技术成为关注的焦点。目前该类技术主要采用纳秒激光或者飞秒激光为光源。近些年,该类技术在高湍流以及燃烧场等极端环境的测量当中
随着以抖音快手为代表的短视频APP的火爆,网络上储存的多媒体视频数据也在爆发式增长,这些视频信息往往包含音频和图像等模态的数据。对应的,传统单模态信息检索已经无法满足用于的日常需求,人们往往希望能够使用单一模态的信息去检索出其他模态的信息。但不同模态的数据本身是存在差异的,如何加强视听模态数据之间的关联性是一项值得深入研究的工作。首先,针对跨视听媒体匹配和检索任务本文提出了一个同构的双路网络框架用