【摘 要】
:
“一带一路”的发展,扩大了来华留学生的规模,汉语在世界语言中的地位越来越高,但留学生在学习汉语时,总是受其母语发音习惯的影响。从汉语文本中预测出韵律结构可以帮助留学生提高汉语水平,使留学生抑扬顿挫地说普通话。本文以留学生为研究对象,分析了汉语文本的句法结构与韵律结构之间的关系,重点研究了韵律词和韵律短语的预测,在此基础上评测了留学生汉语朗读的流利度分数。论文的研究结果对于揭示文本与语音之间的关系、
论文部分内容阅读
“一带一路”的发展,扩大了来华留学生的规模,汉语在世界语言中的地位越来越高,但留学生在学习汉语时,总是受其母语发音习惯的影响。从汉语文本中预测出韵律结构可以帮助留学生提高汉语水平,使留学生抑扬顿挫地说普通话。本文以留学生为研究对象,分析了汉语文本的句法结构与韵律结构之间的关系,重点研究了韵律词和韵律短语的预测,在此基础上评测了留学生汉语朗读的流利度分数。论文的研究结果对于揭示文本与语音之间的关系、提高留学生口语流利度具有重要的理论意义和应用价值。本论文的主要工作和创新如下:1.建立了一个大规模的文本语料库和一个1300句的留学生录音语料库。文本语料库包含10万句中文语料,标注了词性和韵律边界信息,韵律信息在语言学专家的指导下手工标注。录音语料库共有6位留学生和1位汉语母语说话人参与录制,并从音节、音素的覆盖性和全面性进行了统计评估,最终结果表明,这两个语料库可用于汉语韵律结构预测的研究和留学生汉语朗读语音的评测。2.实现了基于深度学习方法的汉语韵律边界预测。三种预测模型分别为双向长短时记忆网络(Bi-directional Long Short-term Memory,Bi LSTM)模型,序列到序列(Sequence to sequence,Seq2seq)模型和序列到序列加注意力机制(Sequence to sequence with Attention,Seq2seq_Attention)模型。同时,也提出了一种用于汉语韵律短语边界预测的句法层级数(Syntactic Hierarchical Number,SHN)特征,用于描述汉语句子的句法结构和韵律结构之间的关系。结合词性、词长等不同的韵律特征,分别进行了韵律词和韵律短语的边界预测实验。实验结果表明,Seq2seq_Attention模型在韵律词的边界预测中效果表现最好,F1分数为98.14%。加入了句法层级数特征的Seq2seq_Attention模型(Seq2seq_Attention_SHN)对韵律短语的边界预测结果比其他方法更有效,F1分数达到了83.12%。3.评测了留学生汉语朗读的语音流利度。为了验证韵律边界预测方法对留学生口语的提升,在韵律边界预测的实验结果中,选取了100句带韵律边界标注的文本并分别让留学生录音,用语音评测软件系统自动对发音水平进行评价,得到流利度分数(取值范围0~100)。语音评测结果表明,留学生口语流利度分数提升了7.31~15.30,平均提升了12.11,证明了本文的研究工作可以帮助留学生掌握韵律结构,口语表达的更好。
其他文献
抑郁症是一种常见的精神障碍,其主要特征为情绪低落、兴趣减退等。由于其较高的患病率和复发率,引起公众的广泛关注。目前,抑郁症的检测方法主要是基于经验丰富的医生的诊断和抑郁量表,这些方法都过于主观且相对不够准确。再加上人们对于抑郁疾患的偏见,使得抑郁症的就诊率和治疗效果都比较差。为此,找到一种客观、有效且适用性高的抑郁症检测方法显得尤为重要。语音以其非侵入,低成本,易获得等特点,使基于语音信号的抑郁识
沙拐枣作为塔克拉玛干沙漠公路防护林主要树种之一,其凋落物储量在各植被类型中最高,通过探究不同环境因素下凋落物分解的变化规律,为沙漠公路防护林的养分物质循环提供理论支持,对于准确估计该区域内的物质循环与能量转化有重要意义。本文通过室内培养试验探究了沙拐枣凋落物表面覆盖、原状混合处理在不同含水量(W1:25%田间持水量、W2:50%田间持水量)的淡水(S0:0 g·L-1)和咸水(S1:4 g·L-1
与汉语、英语等主流语言的语音合成技术相比,藏语语音合成技术合成的语音在自然度和相似度上还存在较大的差距,因此,借鉴主流语言的语音合成技术来研究藏语语音合成具有重要的意义。同时,由于嵌入式设备性能的不断提升,将藏语语音合成技术与嵌入式设备相结合,可以实现便携式的藏语语音合成系统。本文以嵌入式藏语语音合成为研究对象,设计并建立了一个藏语语音合成语料库,分析并改进了语音合成系统中的声码器,在此基础上,搭
在线语音识别是语音处理与应用的重要研究领域之一,近年来,随着网络与通信技术的不断发展,越来越多的技术应用于在线领域,语音识别作为一种重要的人机交互技术越来越得到重视。目前,主流语言如英语、汉语、日语等语言的研究与应用已经很成熟,也有容易获取的大数据量语料库。但是藏语识别方向还存在一些有待解决的问题,藏语作为一种低资源语言,语料库的录制也存在一些困难。基于藏语识别方向研究人数较少,研究基础较为薄弱,
基于无线能量采集(Wireless Energy Harvesting,WEH)技术的无线通信网络是具有应用前景的热点研究方向。通过无线能量采集和无线信息传输的结合,可以有效的解决无线通信网络中能量受限节点的能量供应不足的问题。而且由于无线信道衰落特性会造成信号功率衰减,从而影响传输距离。所以,如何解决终端设备的供电问题以及无线信息的有效传输具有非常重要的研究意义。在传统的通信网络中,通过对某些网
生物多样性与生态系统功能的关系一直是生态学研究的核心议题。早期关于二者关系的研究大多侧重于探索植物多样性与单一生态系统功能的关系,而忽视了生态系统能够同时提供多种功能和服务,即具有生态系统多功能性(Ecosystem multifunctionality),且同时受到地上与地下生物多样性的影响与调控。黄土高原是我国生态环境最为脆弱的地区,柠条人工林是黄土高原生态恢复的重要措施,其种植与生长被证实对
黄土高原人工林植被普遍出现土壤干层,造成生态水文环境恶化。干旱地区林木深层根系是其水分和养分吸收的主要通道,维持植被的蒸腾蒸发及生长。特别是细根负责从土壤中获取养分和水以支持植物生长并确保生存,明确其分布规律对研究黄土高原人工林植被林地的深层土壤水利用特征研究具有重大意义。而由于深层土壤取样难度大,导致黄土高原人工林深层细根分布特征不甚清晰,本文选取黄土高原典型气候研究区和典型植被,从南到北依次选
随着手机、电脑等便携设备性能的提升和互联网的高速发展,使得如今的语音信息呈指数式增加,且语音格式的种类繁多。这一变化使得人们如何快速的实现多格式下的语音认证、提高语音的检索效率与精度及其保证云端数据的安全性成为亟须解决的问题。论文分别以多格式语音认证、密文语音检索为研究背景,对数字信号处理、生物特征模板的构建、语音加密和哈希索引构建算法等技术展开研究。主要研究内容及贡献如下:1、针对现存语音内容认
藏族是我国五十五个少数民族之一,分布较广,人口众多。藏族人说普通话受其本民族语言发音习惯的影响,常常会带有一些固定类型的发音错误。随着语音处理技术和人工智能的飞速发展,计算机辅助语言学习系统(Computer Aided Language Learning,CALL)越来越受到人们的青睐,这种教育方式将会是一个新的趋势。本文以甘肃地区藏族人学习普通话发音为研究对象,从语言学角度对比分析藏语和标准普
土壤矿质氮有效性是影响脆弱生态系统地上植被群落和地下根系功能稳定的关键因子,而异化硝酸盐还原过程直接影响土壤矿质氮的蓄持与流失。为此,本论文从黄土丘陵区广泛分布的刺槐林植被的生态功能稳定性与可持续发展的角度出发,以刺槐林不同恢复年限的根区土壤为研究对象,采集野外土壤样品,综合运用乙炔抑制法、15N同位素示踪法、Illumina平台高通量测序技术、实时荧光定量PCR技术,量化了退耕地土壤异化硝酸盐还