【摘 要】
:
自然语言处理是人工智能的一个重要分支,近年来,深度学习与自然语言处理的结合为该领域带来一个新的突破口,然而,深度学习中神经网络模型的确定依赖的基本要素是训练集数据质量。近年来,“数据不足”的问题时常发生,针对该问题,“数据增强”应用而生。数据增强是利用现有训练数据通过一定的方法扩充数据,从而增强分类器的准确性、鲁棒性。关于数据增强的研究主要分为“图像增强”与“文本数据增强”,关于“图像增强”的方法
论文部分内容阅读
自然语言处理是人工智能的一个重要分支,近年来,深度学习与自然语言处理的结合为该领域带来一个新的突破口,然而,深度学习中神经网络模型的确定依赖的基本要素是训练集数据质量。近年来,“数据不足”的问题时常发生,针对该问题,“数据增强”应用而生。数据增强是利用现有训练数据通过一定的方法扩充数据,从而增强分类器的准确性、鲁棒性。关于数据增强的研究主要分为“图像增强”与“文本数据增强”,关于“图像增强”的方法研究较多,包括翻转、旋转、缩放比例、裁剪、移位、仿射类等,“文本数据增强”的方法包括回译、简单数据增强、非核心词替换、基于上下文信息的文本增强以及基于语言生成模型的文本增强。近年来,有研究人员把“神经网络架构搜索”的思想应用到“图像增强”领域,从而实现图像的自动增强,然而,鲜有人员研究“神经网络架构搜索”应用到“文本增强”领域,帮助文本实现文本数据的自动增强,本文将研究点立足于此,提出文本数据自动增强,利用神经网络架构自动搜索目标文本的特定增强策略,该方法给分类器性能带来一定幅度的提升效果。论文提出一种新的文本增强方法:文本数据的自动增强,该方法的提出基于强化学习、借鉴神经网络架构搜索的思想。首先,控制器在搜索空间中搜索针对目标数据集的增强策略,将增强策略应用到子模型的训练中;然后,利用训练完成的子模型对验证集进行分类;最后,控制器得到分类反馈,更新策略。论文主要采用“对比研究”的研究形式,三个对比模型分别是:(1)训练集为原始语料,不做数据加强处理;(2)训练集为原始语料经过简单数据增强技术得到的数据。(3)训练集是神经网络自动搜索出来的文本数据增强策略应用于原始语料后的增强数据。论文在研究实验采用三个文本分类数据集trec、sst2、cr,每一个数据集分别使用三个量级的平衡子数据集“500”、“2000”、“全集”进行实验,比较不同数据量级下,在三种实验条件下分类器的效果;同时,为 了比较 RNN(Recurrent Neural Network)与 CNN(Convolutional Neural Network)的分类效果的差异,强化学习中子模型网络和最终用于分类器的神经网络会对应变化,训练数据比较分类效果。最后,将文本数据自动增强方法应用于商品风险评估系统的用户评价评估功能中,验证在实际背景下文本数据自动增强方法具有实践意义。论文研究得出三点结论:1)在文本分类问题上,使用自动搜索增强策略方法在分类效果上带来一定程度的提高;随着数据集量级的增大,自动增强方法带来的效果呈现下降趋势,在小数据集上提升效果明显,三个文本分类数据集在“500”数据集量级上平均提高1.8个点,但在大数据集上,提升效果不明显。2)自动搜索增强策略方法带来的效果提升略优于简单数据增强方法,且随着数据集量级的增大,二者的表现效果逐渐接近,差距越来越小。3)在三个数据源上,相同数据量级相同训练数据下,CNN上测试集的准确率高于RNN上测试集的准确率,然而与CNN相比,自动搜索增强策略的方法给RNN带来明显更高的的效果提升,准确率在500数据集上平均提高2个百分点,而CNN的准确率提高约一个点左右。
其他文献
自元代起,上海便是官粮运输的骨干中枢。在中华民国经济发展的“黄金时代”,上海作为当时中国对外开放最大的门户,其米粮市场的发育程度为全国顶尖水平。上海巨大的粮食缺口与其特殊的地理位置,促使其成为全国粮食的需求与运输中心。上海不仅吸收了通过长江连接的中下游各产米区的粮食供给,在全国乃至世界的粮食转口上,都发挥了关键的作用,而这些都促成了上海米粮市场的迅速发展。本文运用了国际贸易学与区域经济学视角相结合
治疗性侧方淋巴清扫临床意义分析目的评估新辅助放化疗后直肠MR提示髂血管周淋巴结肿大(淋巴结短径大于10mm)的腹膜返折之下的进展期直肠癌行治疗性侧方淋巴结清扫的临床价值
随着互联网技术的进步与发展,作品的来源不再局限于作家的创作,作品的传播方式也不再局限于传统纸质卷的传递。在新背景下,作品内容的产生和传播借助“信息的接收者“和“信息的传播平台”,即用户与网络平台,变得愈加容易和普遍。经实践证明,这两种方式已经成为现代人们获取知识行之有效的重要方式。根据中国互联网络信息中心(CNNIC)2019年2月28日在北京发布第43次《中国互联网络发展状况统计报告》1显示,截
近年来我国高速铁路发展迅速,相比于航空、公路、水路等运输方式,高速铁路具备运量大、安全性高、乘坐舒适、准点率高等优势,在中等距离运输上拥有较强的竞争力,是我国综合交通运输体系的核心。随着高铁线路的增多,路网规模的增大,恶劣天气、设备故障以及人为因素等系统干扰逐渐增多,使得列车运行状态异常,进而偏离既定的运行计划导致列车晚点。面对系统扰动的影响,调度员根据历史经验以及现场情况按照技术规范实时调整运行
股票市场作为最重要的资本市场之一,它的表现不仅影响着政府、机构,同时也影响着每一个投资者,因此对于股票收益率影响因素的研究可以说是最热门的研究领域,无数学者投入其中。最为经典的当属CAPM模型[1],该模型认为在均衡市场环境下,系统性风险是影响股票收益率的唯一因素,尽管CAPM模型作为股票收益率影响因素研究的开山之作,具有非常巨大的理论意义,但是其实证效果却难以令人满意。之后,Fama和Frenc
复合轧辊兼具两种金属材料的力学性能优点,既能满足轧机对辊身工作层耐磨性、抗热疲劳和抗氧化等性能的要求,又能保证对辊芯韧性的要求,是轧辊的主要发展方向。本论文涉及的
瑞利-泰勒不稳定性(Rayleigh-Taylor instability,RTI)广泛存在于天体物理、地球物理以及工程界。由于涉及复杂界面动力学、拓扑变化以及时空尺度的跨越性,人们对其后期演化
利用特殊浸润性的表面控制退浸润过程中液体的空间分布和几何形状,从而制备大面积结构长程有序、尺寸图案可控的微纳米结构阵列,对基于液相可加工的有机光电器件应用研究至关重要。可控的微纳米结构图案化制备和加工主要受限于固体不可控的液体运输过程。基于这一背景,我们将特殊浸润性的界面应用于有机半导体纳米材料的图案化制备,即对硅柱表面微结构进行化学修饰,调控液体的退浸润过程,控制毛细液桥形成,从而实现对有机半导
随着互联网技术的迅猛发展,网络对大学生学习、生活和交往的影响日益加重,网络文化与校园文化的碰撞产生了一种新兴的校园网络文化。校园网络文化衍生于校园文化,同时又有别于校园文化,具有其自身独特的内涵。校园网络文化的发展,为大学生思想政治教育提出了重要课题。本文在研究校园网络文化的内涵、特征、功能,把握校园网络文化与大学生思想政治教育关系的基础上,分析校园网络文化视域下大学生思想政治教育面临的机遇和挑战
冬小麦是我国重要的粮食作物,土壤颗粒有机碳(Particulate organic carbon,POC)作为土壤肥力的决定因素之一,可以影响农田土壤质量,近而影响冬小麦作物产量,实现其准确、快速