【摘 要】
:
语音质量评估技术是语音处理领域重要研究内容之一,它在移动通信、互联网、消费电子、数字娱乐、公共安全等领域具有广泛应用。主观语音质量评估方法通常需要较多的人力与物力资源,且耗时较多,因此客观语音质量评估方法越来越受到人们的青睐。有参考语音的客观质量评估方法需要纯净的原始语音,这在实际中有时难以获得。于是无参考语音的客观质量评估方法逐渐得到重视,特别是近年来基于深度学习的无参考语音质量评估研究已取得重
论文部分内容阅读
语音质量评估技术是语音处理领域重要研究内容之一,它在移动通信、互联网、消费电子、数字娱乐、公共安全等领域具有广泛应用。主观语音质量评估方法通常需要较多的人力与物力资源,且耗时较多,因此客观语音质量评估方法越来越受到人们的青睐。有参考语音的客观质量评估方法需要纯净的原始语音,这在实际中有时难以获得。于是无参考语音的客观质量评估方法逐渐得到重视,特别是近年来基于深度学习的无参考语音质量评估研究已取得重要进展。但基于深度学习的语音质量评估方法参数量大,评估准确度还有待提高。针对上述问题,本文研究了基于深度学习的无参考语音质量评估方法,主要研究工作如下:(1)提出了一种基于注意力机制与卷积循环网络的语音质量评估方法。该方法用卷积神经网络和双向长短时记忆(Bidirectional Long Short-Term Memory,Bi LSTM)网络相结合,构建CBLSTM网络,从而可利用卷积神经网络捕捉局部感受野内的空间信息的能力和Bi LSTM有效记忆序列的上下文信息的能力。在此基础上,添加压缩激励(Squeeze-and-Excitation,SE)模块,通过学习特征图中不同通道间的相关性,筛选出针对通道的注意力,从而对特征图进行特征校准。此外,将基于信号损失比(Signal to Distort Ratio,SDR)的自定义损失函数用于模型拟合,提升了模型的评估性能。实验结果验证了该方法的有效性。(2)通过与有效通道注意力(Efficient Channel Attention,ECA)模块相结合,提出了基于深度残差卷积网络和双向门控循环单元(Bidirectional Gate Recurrent Unit,Bi GRU)的低复杂度语音质量评估方法。该方法以降低参数量和计算量为目标,使用Bi GRU和深度可分离卷积,并用残差网络(Residual network,Res Net)的主要结构对卷积部分进行优化,通过直接映射方式,用浅层特征信息来提升评估性能。在此基础上,分别在模型中添加SE模块和更轻量化的ECA模块,以学习不同通道的重要程度,从而对输入信息进行有效筛选,提升评估系统的性能。实验结果表明,该方法在参数量较少的情况下可取得良好的评估性能。
其他文献
近年来,深度神经网络已经在计算机视觉、自然语言处理等诸多领域取得突破性的成绩,然而相比于决策树等逻辑直观的机器学习模型,深度神经网络本身的黑盒特性以及使深度神经网络失效的对抗样本,使得它们难以直接应用到医疗决策、自动驾驶等高风险领域中。因此深度神经网络的可解释性备受关注,多从图像分类任务的可解释性开始研究。一种主流的研究思路是探索模型对于单幅图像或一类图像的决策依据。前者以可视化解释方法为主,它们
2017年底,女性平权运动#MeToo如火如荼地展开,女性自发讲述权力性侵遭遇更成为媒体集中关注的社会问题。依托于历史传统,在国内女性讲述或控告遭遇权力性侵是一个年轻且大胆的话题。各类媒介中,涉事女性从模糊的桃色绯闻、权势罪责、红颜祸水中逐渐脱离男性附属品的标签呈现出愈发清晰的样貌,与此同时却也伴随着一系列伦理失范现象与强暴迷思。本研究主要采用个案分析、内容分析、文本分析、深度访谈四个方法:个案选
目的:探讨中医护理适宜技术融入优质护理服务的效果。方法:医院自2021年5月起对呼吸内科的护理管理模式进行调整,尝试将中医护理适宜技术融入优质护理服务,通过培训,明确优质护理服务理念,确保中医特色护理服务质量,并围绕优质护理服务增加中医适宜技术,重新拟定护理流程,做好相关质控工作,统计调整前后3个月呼吸内科的管理数据,比较不同时期的护理管理质量,调整前后各随机抽取100名患者,调查满意度情况。结果
虹膜识别由于具有准确性、稳定性、非接触性等特点而成为最受关注的安全识别认证方法之一。该方法利用虹膜丰富的纹理信息对个体进行身份验证。由于深度卷积神经网络具有强大的特征提取能力,本文基于深度学习的方法分别设计了应用于虹膜识别任务的虹膜检测与分割以及识别的架构。在对虹膜图像进行识别前,首先要对人眼图像中的虹膜区域进行检测与分割。不同于以往使用Adaboost级联分类器等传统方法对虹膜进行检测,再利用霍
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术因其在频率选择性衰落信道中的优异表现,在第四代移动通信技术中扮演了重要的角色。但是作为一种多载波传输方案,OFDM符号与生俱来的高峰值平均功率比(Peak-to-Average Power Ratio,PAPR)问题会导致严重的非线性失真。传统的PAPR抑制算法性能有限,且会造成一定的
现如今物联网正在快速发展,无线数据流量的需求随之迅猛增长,多种无线信号,如WiFi、蓝牙、毫米波等充斥在人们的工作和生活空间。无线信号除了可以进行通信外,还可以被用来实现感知覆盖范围内目标信息状态,如位置、速度、手势、步态、生命体征等。目标的不同状态对无线信号的反射、折射、散射等现象会产生不同的影响,无线感知技术通过揭示和分析目标对周围无线信号的影响模式,实现不同的感知任务。凭借其不需携带任何设备
深度神经网络在图像分类、识别等领域取得重大进展。但深度模型的“端到端”决策逻辑和工作机制,使其成为“黑盒”模型,不被人类用户理解。人们开始研究可解释性技术,期望以可理解的方式解释这些模型,因此对深度神经网络的工作原理进行准确地解释是很重要的。然而,一个被操纵的解释可能会削弱人类用户对解释的信任,进而误导人类用户不相信一个可靠的网络。因此,设计有效的攻击方法来模拟现实世界中各种可能的威胁,对于评估现
Web2.0技术的进步使得在线知识社区成为用户之间生产和分享知识的大规模协作平台。而随着人工智能(Artificial Intelligence,AI)技术的不断发展,在线知识社区正逐渐由人人协作转变为人与机器人协作进行知识生产。然而,虽然当前社区中的机器人已经成为的重要协作主体之一,但对于人机协作的内在影响机制的研究仍缺少足够的重视,此外,当前关于人机协作的研究缺少对应的理论框架作为指导,并且缺
随着科学技术的进步以及生活质量的提升,人们渴望更加方便、快速、有趣地进行人机交互,手部姿态估计和形状估计有望实现无接触的人机交互。随着人工智能的发展和5G技术的商用,利用深度学习估计手部姿态和形状成为可能,大量研究者尝试利用深度图像和彩色图像估计手部姿态与形状,并取得了令人欣喜的成绩。但当前的手部姿态及形状估计方法仍有提升空间,十分有必要对此展开研究。本文的研究工作如下:(1)深度图像自带深度信息
近年来,随着科学技术的迅速发展,人们的生活水平有了很大的提高,但随之也带来了许多环境污染问题。环境中的各种有毒有害气体正在威胁着人们的健康,因此开发一种选择性好、灵敏度高、工作温度低的传感器变得尤为重要。其中尖晶石型(AB2O4)和钙钛矿型(ABO3)两种金属氧化物由于独特的结构成为了当下的研究热点。本文主要包含了NiFe2O4和LaFeO3两种双金属氧化物的制备及其气敏性研究。主要研究内容如下: