论文部分内容阅读
由于信息技术发展速度越来越快,高新观测设备的不断更新,大量的高新观测设备运用在海洋环境监测数据的采集上,包括航空卫星采集、各类先进传感器采集等,形成了全面立体的海洋环境监测数据采集系统,奠定了海洋信息化坚实的基础。由于各类高新观测设备用于海洋数据的收集,导致海洋环境监测数据的数据量迅速增长,对于急剧增长的海量、复杂的海洋环境监测数据,一方面给海洋信息化发展带来了机遇;一方面也给海洋环境监测数据管理带来了新的挑战。如何对海洋环境监测数据进行高效的管理,对海洋信息化的发展至关重要,也是海洋信息化必须要面对和解决的问题之一。因此,管理复杂的、海量的海洋环境监测数据,对海量的、复杂的海洋环境监测数据进行明确的数据价值等级分类,是目前的研究热点。 随着数据挖掘知识的普及和发展,我们对数据分类也有了基本的了解,数据挖掘的一个重要研究课题就是数据分类,数据分类也一直是科学研究人员的研究重点和热点。本文选用BP神经网络算法来实现海洋环境监测数据分类,在海洋环境监测数据存储凌乱,难以分类保存利用的情况下,以国家标准作为海洋环境监测数据分类依据。在1996年,国家海洋局制定了海洋数据秘密等级的相关文件:《海洋工作中国家秘密及其密级具体范围的规定》;在2007年,国家制定了对数据分级保护的相关规定文献:《数据保密规范》。将这些国家标准和规定作为本文海洋环境监测数据分类的基础和依据,文章中把海洋环境监测数据分为四级:数据价值最高级、数据价值高级、数据价值一般级、数据价值低级,同时结合海洋环境监测数据的特性设计出适合于对海洋环境监测数据价值等级分类的数据分类网络模型,将凌乱的海洋环境监测数据通过数据分类网络模型进行数据的训练和预测,达到对海洋环境监测数据进行价值等级分类的目的,为海洋环境监测数据的分类保存和利用奠定了坚实的基础。本文主要研究内容如下: 1.数据分类算法的选取 面对种类众多的数据分类算法,如贝叶斯分类算法、决策树分类算法,到底选择什么样的数据分类算法适用于文章中的海洋环境监测数据的分类?文章首先要提出和解决的问题就是分类算法的选取问题。文章利用WEKA数据挖掘工具,分别对几种不同的分类算法从错误率、均方误差等几个方面做比较,选择出错误率、均方误差最低的分类算法,即BP神经网络数据分类算法。 2. BP神经网络隐含层单元数的确定 由实验确定了BP神经网络作为本文的数据分类算法,但是BP神经网络有一个难以理论解决的问题,即网络隐含层单元数的选取问题,本文针对这一问题,提出了计算BP隐含层单元数的改进算法,使得BP神经网络在构建数据分类网络模型时隐含层单元数的选取范围比传统的方法所提供的隐含层单元数的选取范围有所缩小,使得隐含层单元数的选取更为准确,提高了数据分类实验效率同时避免了时间精力的浪费。 3.输入输出指标的定义 不同的数据分类模型、不同的数据分类要求,对数据分类模型中输入指标和输出指标的要求不一样,文中结合本文的数据分类的情况和查阅大量的国家标准,分别确定了输入指标和对输出指标进行了定义。输入指标由于实验条件的限制,选取了海洋环境监测的基本要素作为输入指标,输出指标以国家标准为依据,确定为四级,分别是数据价值最高级、数据价值高级、数据价值一般级、数据价值低级。 4.数据分类实验仿真 对于构建完成的BP神经数据分类网络模型,对本文数据分类仿真实验的步骤为:①训练网络,利用海洋环境监测数据对分类网络进行训练;②测试网络,利用测试数据对训练完成的分类网络进行预测分类。通过实验验证该数据分类网络模型能够对海洋环境监测数据价值等级的分类做出准确的分类预测。达到了数据等级分类的目的。 文中在收集大量资料的基础上,还介绍了海洋环境监测网数据收集体系结构和数据分类流程步骤,为后文中的海洋环境监测数据的获取和数据分类步骤奠定了理论基础。