基于云平台的OLAP系统研究与实现

被引量 : 4次 | 上传用户:wossmbbu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算技术的出现为海量数据的处理提供了良好的解决方案。为了进一步促进我国海洋信息化工作的发展,国家海洋局采用云计算技术来构建海洋环境信息综合服务应用框架体系,它可以提高海洋资源信息的可重用性与共享性,以及应用系统的可扩展性。本文依托于国家海洋公益性项目搭建了一个基于云平台的OLAP系统,该系统可以向用户提供多维视图,使用户从多个角度、多个侧面、多个层次考察和分析数据,深入理解数据中的信息及其内涵。现有的OLAP系统在处理大规模数据集时,存在数据处理效率慢及数据信息丢失等问题,效率和容量成为现有OLAP系统的最大瓶颈。基于云平台的OLAP系统不仅能够存储海量数据,还可以并行计算数据立方,提高计算效率,减小系统响应时间。基于云平台的OLAP系统分为三个层次。分别是存储层,OLAP引擎层和应用层。存储层采用数据仓库Hive进行数据存储,并根据OLAP引擎Mondrian所提供的JDBC通用接口方法,利用JAVA语言实现了一个Hive方言类——HiveDialect,将Mondrian生成的SQL语句转换成符合Hive操作格式的类SQL的HiveQL语句,实现了OLAP引擎对存储层数据存取操作。OLAP引擎层利用开源项目Mondrian实现物理模型与多维模型的映射,完成了多维数据集的创建以及MDX语句的解析。应用层采用自定义标签库JPivot实现,利用JSP标签库来提供执行OLAP操作的相关按钮和完成数据展示功能,并且提供JDBC接口与底层数据模型建立连接。根据项目需求,OLAP系统需要提供给用户一个基于云平台的分类挖掘算法库,帮助用户进一步完成对数据的挖掘和分析。现有的分布式机器学习算法库Mahout,提供了一些经典的分类挖掘算法,如贝叶斯、决策树等。而学习速度快,泛化性能好的在线贯序学习机(OS-ELM)算法并没有在云平台实现。本文对OS-ELM算法进行分析,利用MapReduce编程框架实现了OS-ELM算法的并行化处理,设计了一种基于Map-Reduce的OS-ELM算法,即MOS-ELM。实验表明,MOS-ELM算法是可行的。与集中式的OS-ELM算法相比,该算法模型简单,易于实现,并且具有良好的扩展性和并行性。
其他文献
21世纪是世界飞速发展的时期,各国的经济、文化和科技日益开放,同时机遇和挑战在这个时代并存,人类正以空前的速度迈进全球化。不同的国家和民族不仅在经济上互相影响,而且在文化
国防实力是综合国力的重要组成部分。统筹经济建设和国防建设,在全面建设小康社会进程中实现富国和强军的统一,继承和发展了我们党一贯坚持的有关原则和方针,充分体现了深入
英语写作能力是大学生应具备的重要外语技能之一。英语写作练习是检验和提高大学生英语语言综合运用能力的一种有效方式。培养学生较强的写作能力是大学英语教学的主要目标之
很多中药有效成分或部位存在溶解度低,导致药物吸收受限、生物利用度低,因而其新药开发及临床用药也受到了极大限制。纳米混悬(nanosuspensions)给药系统为解决中药难溶性成
以梯级总发电量最大为目标建立大规模水电站群发电优化调度模型,对长江流域17座大型骨干性水电站进行长期发电优化调度研究。针对大规模水电站群优化求解中存在的"维数灾"问
智能电网需要全景的状态数据。电网运行、检修和管理过程中会产生海量异构、多态的数据,也即大数据。如何对它们进行高效、可靠、低廉地存储,并快速访问和分析,是当前重要的
介绍了配电网无功补偿技术的现状,分析了配电网无功补偿工作中现存的技术问题,指出从电力系统角度进行综合考虑的线路无功补偿是配电网降损节能的有效手段,并提供了有关技术分析
随着特钢企业通过不断的并购重组,企业的规模不断扩大,同时在企业网络中传输的信息也从单一的数据业务扩展到语音、视频与数据业务并存,不同地域间的生产基地,彼此之间经常需
随着微博日趋流行,它已经成为一种新型的信息发布和传播的社交媒介。截止到2012年12月底,新浪微博的注册用户已达5亿多。微博数据也随之增多,其中包含大量对组织或个人有价值
<正>我国民营企业开展出口业务,有一个曲折的发展过程,大体上可以分为四个时期,1949-1956年为限制、改造时期,1956-1978年为空白时期,1979-1998年为货源供货时期,1999年至今