论文部分内容阅读
伴随着大数据时代的来临,种类繁多的数字信息充满了人类社会的每个角落,其中文本信息占据了重要的地位。由于人工数字信息的管理已无法顺应大时代的潮流,因此,高效管理和准确定位海量信息是现阶段研究的热点问题。近年来,文本自动分类技术愈发受到大众瞩目,被应用到了不同领域,但是林业信息领域的相关研究有一定局限性,并且分类性能较低,存在较大的进步空间。林业信息文本分类指以林业信息文本数据为基础,对分类器模型进行构造,然后按照已建立的分类器模型对新林业信息样本进行类别划分的过程。影响林业信息文本分类的主要因素包括:预处理精度、林业信息文本表示精度、林业信息文本特征降维精度、分类器精度等。由于传统的文本分类研究为了避免维度灾难,通常只提取文本的少量特征,导致文本分类的精度和准确率不高。所以,建立高效的文本特征表示方法以及准确的特征选择方法是当前林业信息文本分类所关注的重要问题。本文基于深度学习方法对林业信息文本分类进行研究,主要内容和创新工作包括:(1)首先根据搜集的资料构建样本库,然后对林业信息文本进行预处理。林业信息文本分词由多个字符串构成,计算机无法直接识别,采用经典的TF-IDF公式来获取相应特征词的权重,分别计算每条样本中每个词的特征权重,进而构造出整个训练集、测试集的样本特征矩阵。特征向量维数过高,对比实验中所使用的BP神经网络,支持向量机(SVM)等算法均需要对特征矩阵进行降维处理。本文使用主成分分析(PCA)进行特征选择,抽取出与林业信息文本关联程度较高的特征项,去掉关联程度弱的特征项。(2)阐述差分演化算法(DE)和极端学习机算法(ELM),将DE和ELM结合,取长补短,提出了一种新的基于DE-ELM的林业信息文本分类算法。该算法能有效克服ELM的不足之处并具有较好的收敛能力,与ELM相比有一定的竞争力,为林业信息文本的分类研究提供了新算法。(3)将深度信念网络算法(DBN)引入林业信息文本分类研究,进而提出了一种新的基于深度学习的林业信息文本分类算法。使用深度信念网络进行林业信息文本分类首先进行DBN预训练。该过程通过贪心算法逐层训练每一层网络,避免过拟合的同时也得到了能反映数据本质的特征。其次进行网络调优,按照反向传播算法(BP)将误差自顶向下传输,对网络微调优化,提高网络的分类性能。该算法从大量无标注的林业信息样本集中逐层提取特征,获得了更好的语义表征,从而考虑到文本更为全面的信息量。与传统算法相比有较强的优势,为林业信息文本分类提供了新的研究方向。经过实践证明,与极限学习机算法相比,基于差分演化优化极端学习机的林业信息文本分类算法分类的正确率分布均匀且数值较高。由实验结果可知,基于深度信念网络算法的林业信息文本分类方法比基于BP、SVM、DE-ELM的林业信息文本分类算法具有更高的精度、更好的分类性能。该算法具有较好的应用前景,为林业信息文本分类领域提供了新视角。