基于字符级卷积神经网络的中文文本分类研究

来源 :沈阳工业大学 | 被引量 : 0次 | 上传用户:xxxhht
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网迅猛发展,移动端网民的爆发式增长使得每一个人都可以成为一个小型的自媒体,其内容也主要以文本的形式而传播,形成了一个以内容为主的新信息时代。每天都有数亿计的内容在各个平台上产生,如新闻内容、自媒体文章、产品评论等,如何将这些内容利用起来,挖掘出其潜在价值是自然语言处理的重要任务目标。文本分类作为其中首要的一个任务,在于将这些文本分类到预先指定的类别之中,使得减轻工作人员的负担。但是现如今的文本内容中或多或少的会出现内容不规范、出现错别字等拼写错误的情况,使得基于使用词语作为文本的特征的模型出现分类效果降低。使用基于词语作为特征的模型同样会受到分词步骤的影响,分词的好坏在一定程度上决定了最终分类结果的好坏。同样随着移动端设备数量的增长,移动设备存在各方面诸如内存的限制,如何将其实际应用落地到移动端也是一个亟待解决的问题。基于以上考虑,在本文中对基于字符级别的卷积神经网络模型做了研究,概括如下:用于中文字符表示的编码方式特点分析。用于中文字符表示的编码方式有拼音编码、UTF-8编码、图片编码、随机字符嵌入向量以及预训练字符嵌入向量五种方式。文中对这五种字符的表示方式进行了全方位的比较,分析了各种方式的特点。预训练汉字字符嵌入字向量的研究。提出了两种新颖的汉字字符嵌入向量预训练方法,都是通过采用类似Skip-Gram的无监督学习的思想来建模学习得到字符的嵌入向量。学习得到的字符嵌入向量将会含有一定的关于句法结构和语义结构的知识,通过这种方式来优化最后的字符级卷积神经网络。将学习到的汉字字符嵌入向量结合到卷积神经网络之中的训练之中,训练出的模型获得了最佳的分类效果。提出的方法相对于采用其它中文字符表示方法的卷积神经网络模型,运算的速度获得提升,应用时不需要分词工作辅助,并且以一种更好的方式去解决OOV(Out of Vocabulary)问题。
其他文献
大治灵乡铁矿为鄂东南矿集区典型的矽卡岩型矿床,矿体受大理岩与闪长岩接触带构造控制明显。灵乡矿区矿床大体呈"井"字形分布,自西向东可分为西、中、东3个矿带。利用灵乡矿区3
目的研究保温护理对于全麻苏醒期患者的麻醉及应激状况产生的影响。方法选取我院74例全麻手术患者进行对比研究,分析其麻醉状况及应激状况。结果两组患者麻醉时间对比差异不
电话闭塞法是当列车信号系统发生故障时采用的一种行车组织方法,首先对电话闭塞法的原理进行说明,指出采用电话闭塞法组织行车的条件;其次对一站一区间、一站两区间、两站两
随着互联网经济的发展,居民网上消费规模逐年扩大。在经济新常态下,如何进一步拉动内需成为关注的热点。基于前人研究成果,本文从消费体验因子、安全因子、促销活动因子、服
非线性偏微分方程数值求解在物理和数学上是一项基础工作.通过应用傅立叶变换得到一种原理简单、收敛快速的迭代方法.这种迭代方法易于学生掌握和使用,能应用在matlab程序设
文章提出一种新型的盲人助行装置,为盲人朋友的便利出行提供一种新方案。主要是通过深度学习与传感器相结合的嵌入式开发,增加盲人朋友的道路信息获取量,突破以往单一辅助设
小麦是重要的粮食作物,在保证国家粮食安全方面发挥着不可替代的作用。山东地区是全国的小麦主产区之一,为提高小麦质量与品质,该文从科学选种、选地整地与施肥、播前准备、
为阐明特高压输电导线对X波段高分辨率合成孔径雷达卫星信号的电磁散射特性,首先分析了特高压输电导线的几何结构特征和材质,并基于悬链线方程建立导线的物理模型.然后分析了
5月,走进安顺市西秀区旧州镇山里江南景区,繁花布美景、小楼绕清流,花海、水畔、手工艺DIY,带来别样的屯堡意趣。自2016年启动以来,这里每年都吸引数万游客前往。作为与山里
笔者对历代有关蜈蚣炮制的本草文献中的炮制方法、所用辅料和除去非药用部分进行了整理,并比较了各法炮制后蜈蚣所含的化学成分,药理作用。结果表明:蜈蚣头足所含的化学成分