中文成语表征学习及其应用

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:hnkfxwj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习的兴起,自然语言处理在中文领域快速发展,其中文本表征是不可或缺的基础编码层。成语在书面和口语中使用频繁,在中文表意中有着非常重要的作用,地位不可替代。因此,高效的成语表征对中文自然语言处理的进一步发展至关重要。成语是中文独特的语言现象,它固定的四字结构,形式简洁,内容丰富,带来了两大特性:非语义合成性和意义整体性,即:它的意义不能简单通过字的含义相加,而是一个整体。这两个特点导致目前主流的词级别和字级别中文文本表征方法不适合直接应用于中文成语。为了有效对成语进行表征,本文提出基于释义增强的中文成语多粒度表征模型,并基于完形填空式的中文阅读理解任务验证表征效果,最后将其应用于高考语文成语试题中,获得了较好的效果。本文贡献如下:(1)本文提出了两种表征模型。1)字词融合的上下文表征模型。为了实现字词表征的完美融合,本文设计了两种字词向量对齐方法,解决字词向量对齐问题;提出了三种融合方式,对字词之间的交互方式进行建模。2)基于释义增强的成语表征模型。为了完成对释义中不同成分的有效筛选,本文设计了独特的注意力机制,解决了词向量无法对成语进行有效表征、成语字信息会对词信息造成混淆的两个问题。在真实中文机器阅读理解任务上的实验表明:本文模型能够改进目前主流的BiLSTM、AR和SAR阅读理解模型的性能,最高能够提升9.5%,证明了该方法的有效性和通用性。(2)本文通过具体案例的量化分析,发现上述模型获得的相似成语的表征之间的欧式距离更大,余弦相似度更小,证明了本文提出的成语表征模型具有比基线模型更强的相似成语辨别能力,是一个通用的表征模型,具有广泛的应用价值。(3)通过收集数据,本文建立了一个高考语文试卷中与成语相关的试题数据集,将上述模型应用于高考语文成语试题的解题任务中。实验结果表明:本文提出的模型能够很好地解决高考成语试题的解题工作,在测试集中准确率达到75.9%,远高于考生平均水平66.7%。图10幅,表19个,参考文献53篇。
其他文献
蜂窝物联网是互联网的应用拓展,也是新一代通信技术的重要组成之一。物联网、移动互联网和传统互联网每天都会产生海量数据,以满足不同类型的网络服务需求。网络的快速发展需要更低时延更高可靠性连接的支持。边缘计算的提出为网络的发展提供了良好的助力,但边缘计算节点的部署也会引发相应的部署成本的问题。因此,如何在保证网络低时延高可靠连接,并提供多样化服务的条件下,更加高效地部署边缘计算节点,降低部署成本是亟需解
基于书帖标识的图书配帖检测研究利用图像处理技术,从采集的CCD图像中,根据书脊图像中书帖标识的信息,完成检测任务。本文对提高书籍装订质量,提高生产效率和工业自动化程度具有十分重要的工程意义和理论意义。本文将基于书帖标识的图书配帖检测研究分为书帖标识检测、锁线区域分割和图书配帖匹配三个基本环节。(1)书帖标识检测。在非经典感受野机制的启发下,提出了基于三高斯模型的书帖标识检测方法。该方法本质上是一个
依存句法分析是识别句子中词与词之间的语义修饰关系并构建依存句法树的过程。依存句法树能够简洁高效的表达句子的句法结构信息,广泛应用于机器翻译、问答系统等自然语言处理任务中。在对汉语进行依存句法分析时,需要先依次进行分词和词性标注。为解决这种串行分析方式中存在的错误传播和无法共享特征的问题,研究人员提出联合三个任务同时进行分析的方案,如何同时提升三个任务的分析精度一直是汉语依存句法分析研究追求的目标。
图结构能够直观地反映样本点间的关联性,近年来,基于图结构的聚类算法得到了广泛研究。目前已提出的传统算法能较好的利用样本点的图结构信息完成聚类,并表现出卓越的性能,但是其聚类结果对图结构有极强的依赖性。随着深度学习的发展,图深度神经网络被提出,它通过捕捉样本点间的图结构关系,将邻域特征融合后作为该样本点的特征表示,使得所提特征更利于聚类。但是随着图神经网络层数的加深,学习的特征容易出现过平滑的现象,
Tor匿名通信系统具有单向匿名即客户端匿名功能,也可提供双向匿名功能即客户端与服务端同时匿名进行通信。Tor隐藏服务机制就是这种双向匿名的实现方式。隐藏服务有效保护了用户和服务方的隐私,但是也容易被滥用,导致Tor成为了毒品交易、军火买卖等非法活动的“犯罪天堂”。研究Tor隐藏服务的脆弱性,特别是对其真实物理地址的溯源工作,已经成为国内外匿名通信领域的研究热点。Tor隐藏服务基于多跳路由、流量混淆
图像显著性目标检测旨在利用计算机模拟人类的视觉认知机制,快速并准确地定位视觉场景中最具信息量的区域,同时选择性地忽略其他无关区域。该任务作为计算机视觉研究领域中的一个重要分支,广泛应用于诸如机器人识别、背景转换、三维视觉重建等实际场景中,并作为图像识别、图像分类、语义分割等视觉任务的预处理工具,有效地节省了图像处理的时间和空间成本。近年来,深度学习地快速发展使得基于神经网络的RGBD显著性目标检测
目标检测是计算机视觉的重要研究领域,用于判定输入的图像或视频是否含有物体,以及判定物体的类别和位置。近年来,随着深度学习在各个领域展露出性能优势,基于深度学习的目标检测的性能也有了突飞猛进的提升,检测速度越来越快,成为了目标检测的主要方法。因为对抗样本的存在,基于深度学习的目标检测算法的安全性备受关注。对抗样本的存在会在目标检测的应用场景中造成不可估量的后果,尤其是在军事场景中,其错误检测造成后果
全景视频覆盖了360°×180°范围中的场景信息,为用户提供了无死角沉浸式体验,成为目前虚拟现实视频应用的主要内容源。由于全景视频分辨率高,体积大,若直接用于传输,将给网络造成较大压力。考虑到人眼当前视口大小是有限的,为了减少网络带宽消耗,现有的方案主要是基于视口编码及传输,这种方案减少了视频传输时所占带宽,但是在用户切换视口时会带来延迟问题,影响沉浸式体验。本文提出全景视频超分辨率算法以缓解延迟
人口增长和城市化水平的提高不断刺激着建筑需求,大规模的建设带来巨大的资源压力,也对环境保护带来严峻的挑战。兼顾效率和环境友好的装配式建筑日渐成为中国建筑业发展的主流。在国家大力推广信息化、市场化的大背景下,总承包模式和BIM技术的应用,也成为装配式建筑发展的大势所趋。工程计价是装配式建筑发展的重要环节,现行的装配式建筑计价方式以工程量清单计价为主,但由于计价依据不完善、信息化应用不深,装配式建筑造