论文部分内容阅读
云计算技术的出现为海量数据的处理提供了良好的解决方案。为了进一步促进我国海洋信息化工作的发展,国家海洋局采用云计算技术来构建海洋环境信息综合服务应用框架体系,它可以提高海洋资源信息的可重用性与共享性,以及应用系统的可扩展性。本文依托于国家海洋公益性项目搭建了一个基于云平台的OLAP系统,该系统可以向用户提供多维视图,使用户从多个角度、多个侧面、多个层次考察和分析数据,深入理解数据中的信息及其内涵。现有的OLAP系统在处理大规模数据集时,存在数据处理效率慢及数据信息丢失等问题,效率和容量成为现有OLAP系统的最大瓶颈。基于云平台的OLAP系统不仅能够存储海量数据,还可以并行计算数据立方,提高计算效率,减小系统响应时间。基于云平台的OLAP系统分为三个层次。分别是存储层,OLAP引擎层和应用层。存储层采用数据仓库Hive进行数据存储,并根据OLAP引擎Mondrian所提供的JDBC通用接口方法,利用JAVA语言实现了一个Hive方言类——HiveDialect,将Mondrian生成的SQL语句转换成符合Hive操作格式的类SQL的HiveQL语句,实现了OLAP引擎对存储层数据存取操作。OLAP引擎层利用开源项目Mondrian实现物理模型与多维模型的映射,完成了多维数据集的创建以及MDX语句的解析。应用层采用自定义标签库JPivot实现,利用JSP标签库来提供执行OLAP操作的相关按钮和完成数据展示功能,并且提供JDBC接口与底层数据模型建立连接。根据项目需求,OLAP系统需要提供给用户一个基于云平台的分类挖掘算法库,帮助用户进一步完成对数据的挖掘和分析。现有的分布式机器学习算法库Mahout,提供了一些经典的分类挖掘算法,如贝叶斯、决策树等。而学习速度快,泛化性能好的在线贯序学习机(OS-ELM)算法并没有在云平台实现。本文对OS-ELM算法进行分析,利用MapReduce编程框架实现了OS-ELM算法的并行化处理,设计了一种基于Map-Reduce的OS-ELM算法,即MOS-ELM。实验表明,MOS-ELM算法是可行的。与集中式的OS-ELM算法相比,该算法模型简单,易于实现,并且具有良好的扩展性和并行性。