论文部分内容阅读
随着移动互联网迅猛发展,移动端网民的爆发式增长使得每一个人都可以成为一个小型的自媒体,其内容也主要以文本的形式而传播,形成了一个以内容为主的新信息时代。每天都有数亿计的内容在各个平台上产生,如新闻内容、自媒体文章、产品评论等,如何将这些内容利用起来,挖掘出其潜在价值是自然语言处理的重要任务目标。文本分类作为其中首要的一个任务,在于将这些文本分类到预先指定的类别之中,使得减轻工作人员的负担。但是现如今的文本内容中或多或少的会出现内容不规范、出现错别字等拼写错误的情况,使得基于使用词语作为文本的特征的模型出现分类效果降低。使用基于词语作为特征的模型同样会受到分词步骤的影响,分词的好坏在一定程度上决定了最终分类结果的好坏。同样随着移动端设备数量的增长,移动设备存在各方面诸如内存的限制,如何将其实际应用落地到移动端也是一个亟待解决的问题。基于以上考虑,在本文中对基于字符级别的卷积神经网络模型做了研究,概括如下:用于中文字符表示的编码方式特点分析。用于中文字符表示的编码方式有拼音编码、UTF-8编码、图片编码、随机字符嵌入向量以及预训练字符嵌入向量五种方式。文中对这五种字符的表示方式进行了全方位的比较,分析了各种方式的特点。预训练汉字字符嵌入字向量的研究。提出了两种新颖的汉字字符嵌入向量预训练方法,都是通过采用类似Skip-Gram的无监督学习的思想来建模学习得到字符的嵌入向量。学习得到的字符嵌入向量将会含有一定的关于句法结构和语义结构的知识,通过这种方式来优化最后的字符级卷积神经网络。将学习到的汉字字符嵌入向量结合到卷积神经网络之中的训练之中,训练出的模型获得了最佳的分类效果。提出的方法相对于采用其它中文字符表示方法的卷积神经网络模型,运算的速度获得提升,应用时不需要分词工作辅助,并且以一种更好的方式去解决OOV(Out of Vocabulary)问题。