基于深度学习的林业信息文本分类算法研究

来源 :东北林业大学 | 被引量 : 4次 | 上传用户:TRACY101688
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着大数据时代的来临,种类繁多的数字信息充满了人类社会的每个角落,其中文本信息占据了重要的地位。由于人工数字信息的管理已无法顺应大时代的潮流,因此,高效管理和准确定位海量信息是现阶段研究的热点问题。近年来,文本自动分类技术愈发受到大众瞩目,被应用到了不同领域,但是林业信息领域的相关研究有一定局限性,并且分类性能较低,存在较大的进步空间。林业信息文本分类指以林业信息文本数据为基础,对分类器模型进行构造,然后按照已建立的分类器模型对新林业信息样本进行类别划分的过程。影响林业信息文本分类的主要因素包括:预处理精度、林业信息文本表示精度、林业信息文本特征降维精度、分类器精度等。由于传统的文本分类研究为了避免维度灾难,通常只提取文本的少量特征,导致文本分类的精度和准确率不高。所以,建立高效的文本特征表示方法以及准确的特征选择方法是当前林业信息文本分类所关注的重要问题。本文基于深度学习方法对林业信息文本分类进行研究,主要内容和创新工作包括:(1)首先根据搜集的资料构建样本库,然后对林业信息文本进行预处理。林业信息文本分词由多个字符串构成,计算机无法直接识别,采用经典的TF-IDF公式来获取相应特征词的权重,分别计算每条样本中每个词的特征权重,进而构造出整个训练集、测试集的样本特征矩阵。特征向量维数过高,对比实验中所使用的BP神经网络,支持向量机(SVM)等算法均需要对特征矩阵进行降维处理。本文使用主成分分析(PCA)进行特征选择,抽取出与林业信息文本关联程度较高的特征项,去掉关联程度弱的特征项。(2)阐述差分演化算法(DE)和极端学习机算法(ELM),将DE和ELM结合,取长补短,提出了一种新的基于DE-ELM的林业信息文本分类算法。该算法能有效克服ELM的不足之处并具有较好的收敛能力,与ELM相比有一定的竞争力,为林业信息文本的分类研究提供了新算法。(3)将深度信念网络算法(DBN)引入林业信息文本分类研究,进而提出了一种新的基于深度学习的林业信息文本分类算法。使用深度信念网络进行林业信息文本分类首先进行DBN预训练。该过程通过贪心算法逐层训练每一层网络,避免过拟合的同时也得到了能反映数据本质的特征。其次进行网络调优,按照反向传播算法(BP)将误差自顶向下传输,对网络微调优化,提高网络的分类性能。该算法从大量无标注的林业信息样本集中逐层提取特征,获得了更好的语义表征,从而考虑到文本更为全面的信息量。与传统算法相比有较强的优势,为林业信息文本分类提供了新的研究方向。经过实践证明,与极限学习机算法相比,基于差分演化优化极端学习机的林业信息文本分类算法分类的正确率分布均匀且数值较高。由实验结果可知,基于深度信念网络算法的林业信息文本分类方法比基于BP、SVM、DE-ELM的林业信息文本分类算法具有更高的精度、更好的分类性能。该算法具有较好的应用前景,为林业信息文本分类领域提供了新视角。
其他文献
随着信息化社会的飞速发展,高性能计算已成为继理论科学和实验科学之后科学研究的第三大支柱。从战略高度上讲,高性能计算技术是一个国家综合国力的表现,并在社会生活的各个
随着互联网行业的不断发展,越来越多的新兴产业加入到大数据的浪潮中,它们每天产出着海量的信息。分布式计算的出现,为处理海量数据的分析和处理提供了强有力的支持,同时也为
自人类出现以来,对于大自然的探索从来没有停下脚步。作为公众窥探和了解自然的重要窗口之一,自然纪录片以野生动植物的历史与现状、人类与自然的关系以及大自然的原始风貌为主要表现题材,表达出人类对于生态环境的深切关注,展现了人类对于社会发展与大自然两者之间关系的探索与思考,弥补了其他题材纪录片只关注人类生产活动的题材缺失。在一百多年的发展历程中,自然纪录片逐渐形成了相对完整和独立的类型体系,有着表达人文关
最近几年,煤炭市场呈现出迅猛发展的良好形势。某煤炭公司经营业绩也得以快速上升,煤炭市场的前景十分广阔,但是同时也存在很大的变数,基于此,煤炭企业倘若仍旧沿袭传统的管
3D技术的蓬勃发展使得3D视频深入人心。与戴眼镜式的3D技术相比,裸眼式3D给人们提供了更为轻松的观看体验。裸眼显示方案通常在已有的双目3D视频下生成多个中间视点,然后将生
随着信息量的爆炸式增长,人们迫切的希望提高信息的传输速率,最直接的解决办法就是提高信号的频率,时间透镜在这种情况下被提出。最开始人们研制时间透镜是为了对信号进行压
文本分类是数据挖掘领域的热点问题,但在实际应用中,会出现一些类中的文本很多,而另外一些类中的文本相对较少,不同类别数据集规模之间出现明显的倾斜情况,其中,文本分类器就
在上个世纪80年代中后期,电容层析成像(Electrical Capacitance Tomography,ECT)技术逐步发展成为过程层析成像(Process Tomography,PT)技术的一种,ECT技术具备可靠性强,成本
液压自动位置控制(Automatic Position Control,APC)系统是整个冷轧板厚控制系统的关键控制和执行部分,直接影响冷轧板带材的最终成型质量,因此研究如何提高APC系统性能就显
近年来,随着信息化时代的到来,数据呈现爆炸式的增长趋势,普通的大型计算机已经无法承担计算海量数据的任务,各大互联网公司纷纷采用大规模的Hadoop集群来完成数据的存储和分