限定领域语言模型训练语料的词类扩展方法

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:wbgbg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
限定领域的语言模型训练语料的搜集需要耗费大量的人力物力,如果语料搜集不充分,往往会造成数据稀疏的问题。解决该问题的方法有两种:1、采用数据平滑算法,降低模型的困惑度;2、对训练语料进行扩展。探索了对语言模型的训练语料进行半自动扩展的方法。该方法通过计算互信息将非限定领域的大规模语料分成若干词类,生成大词类表;再将该表中领域相关的词类提取出来,进行手动删减之后用于对限定领域的语言模型进行参数估计。实验表明,将该方法用于语音识别系统,能有效缩短语言模型训练语料的搜集时间,提高系统的识别率。
其他文献
目的研究优质护理在老年性脑梗死护理中的应用价值。方法研究抽取了我院神经内科在2016年~2019年收治的98例老年性脑梗死患者,通过随机抽签的方法将其分为对照组和实验组,每
MPS(模块化工作站)课程是职业院校电气自动化专业的一门核心专业课程,该课程内容实践性强,强调动手能力、工程应用能力及创新能力的培养.如何采用恰当的、有效的教学方法来提高
目的探讨共情护理模式在重度抑郁症住院患者中的应用效果。方法将88例重度抑郁症住院患者随机分为两组各44例,对照组采取常规护理模式,研究组采取共情护理模式。采用汉密尔顿
摘 要:随着社会的发展,中国元素开始被广泛地运用到平面设计中,这标志着中国特色民族文化开始走向世界,并引起各界的关注。在现代设计中,中国元素的运用不仅成为设计界的一个热点,也是一个颇受关注与争议的社会现象。本文通过深入分析当前中国元素对平面设计的影响,对今后如何更巧妙地将中国元素运用到平面设计中提出一些方法和建议。  关键词:平面设计;中国元素;创新  0 引言  随着中国经济的发展和人们生活水平
针对贝叶斯网络结构学习提出了一种改进的遗传算法,和传统遗传算法相比,该改进算法针对贝叶斯网络结构学习问题增加了优化变异和修正非法图两个新的算子。新算子不但保持了贝叶