基于机器学习的少数民族语言翻译关键技术研究与实现

来源 :电子科技大学 | 被引量 : 8次 | 上传用户:bbpooh123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国是一个多民族组成的国家,文化多种多样,语言沟通成为促进民族发展、民族团结和共同繁荣的重要因素,而语言翻译是解决语言沟通不畅问题的主要手段。然而人工翻译已经无法满足人们对翻译的需求。另一方面,利用机器进行语言翻译的理论和技术,在学术界和工业界的不懈努力下不断更新和成熟。响应社会发展、民族团结稳定的号召,机器翻译迫切需要应用到社会生活中。研究针对少数民族语言机器翻译的技术意义重大。本文研究的基于短语的统计机器翻译,运用机器学习思想,以对数线性模型为理论基础,以短语为基本翻译单元,是目前较为先进和成熟的机器翻译方法。尽管该方法在英法、中英等大语种翻译中有令人满意的表现,但是在某些情形下数据稀疏和长距离调序能力弱的问题比较显著。少数民族语法结构与汉语存在较大差异,可获得的语料库规模小,而且针对少数民族语言的计算语言学研究不充分,种种因素使得少数民族语言翻译的效果很难达到应用目标。针对少数民族语言翻译的难点,本文采取基于短语的统计机器翻译技术路线,完成了以下工作:(1)总结了基于短语的统计机器翻译及其关键技术。本文首先对统计机器翻译的数学模型以及翻译流程中的关键步骤进行了完整阐述,接着对翻译结果的自动评测方法做了详尽的论述。(2)提出了一套应对小规模语料库的非连续源短语的翻译策略。传统短语模型只抽取连续短语,为了从少数民族的小规模语料库中挖掘更多信息并加以利用,本文探索了源语言端非连续、目标语言端连续的翻译策略,论证了用于抽取非连续短语的新算法,阐述了改进后的模型并实现了相应的解码算法。(3)提出了一种利用词典消除少数民族翻译中OOV(Out Of Vocabulary)问题的方法。OOV产生是因为语料库无法覆盖所有的词语,本文阐述了加入词典的用于消除OOV的翻译方法,并给出了相应的算法。最后,基于上述创新点和本人的其他相关研究工作,本文实现了一个少数民族语言到汉语的机器翻译系统,并部署到相关单位得到了实际运用。实验结果表明采用了本文的改进算法之后,翻译结果比Baseline的更理想。
其他文献
近年来,随着我国高等教育的快速发展,高校办学规模不断扩大,教学资源日益紧缺,使教务管理部门任务越来越重,不仅增大了工作量,更增加了工作难度,管理稍不到位,便容易出现失误。为了改
网格的出现,使得在地理上广泛分布的各种资源在逻辑上形成一个整体,从而实现资源共享和协同工作。另一方面,随着传感器,存储系统,网络处理能力和容量的显著提高,使得创建海量
本科教学工作水平评估是教育部为进一步加强国家对高等院校教学工作的管理与指导而进行的认证。教育部确立了对普通高等院校进行五年一轮的评估制度,实践表明,开展此项工作,对规
本文主要讨论高维空间球集最小球覆盖问题和二维空间圆集最小圆覆盖问题。高维空间最小球覆盖问题是指对于给定的高维空间球集S,求解覆盖S中所有球的最小球。二维空间最小圆
工作流是业务流程的计算机化或自动化。工作流管理系统是一个软件系统,它完成工作流的定义和管理,并依据在系统中预先定义好的工作流逻辑进行实例的执行。工作流技术要解决的
汉语属于分析性语言,缺乏严格意义上的形态变化,汉语的副词承担着繁重的语法任务,在汉语语法系统中具有重要地位。副词在自然语言理解与生成中的重要性不言而喻。目前已有的
容错编码技术是针对数据传输与存储系统所面临的容错信道,保证数据高效、可靠传输与存储的一种前向纠错编码技术.随着P2P网络、多播传输等技术的发展,基于数据块或数据包的大
从生物序列中识别基序是生物信息学中的一个热点问题,也是生物学中研究基因调控机制的基础计算问题之一。由于基序长度较短、非百分百保守以及生物数据复杂性高等原因,通过计
边缘检测技术是图像分析的重要内容,也是图像处理领域中一种重要的预处理技术,受到了人们广泛的关注和重视。由于实际应用中图像质量的优劣性和目标的复杂性,进行边缘检测时
随着电子商务的普及与发展,大部分网络消费者在购买商品前都会浏览商品的用户评论信息,这些评论信息不仅对消费者做购买决策有帮助,对生产厂家或电商公司获取商品市场反馈也