数据仓库ETL研究及实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:YAOXUEQIN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机及网络技术的快速发展,许多行业、单位和部门内部都逐步实现了业务、信息的计算机化管理,开发了大量软硬件平台各异的应用系统,在各种应用系统下又积累了丰富的数据资源,这些数据资源由于软硬件平台各异、数据模型各异而形成了异构数据。而这些数据资源是企业的宝贵财富,企业单位迫切需要集成这些地理上分布、管理上自治、模式上异构的异构数据源。 本文以攀钢统计系统为研究背景。分析了数据仓库的体系结构,通过项目中的具体实例阐述了攀钢统计系统ETL(Extract、Transformation、Loading,抽取、转换、加载)的实现过程,并给出了结果数据。另外针对目前攀钢统计系统数据提取方式上存在问题并结合攀钢系统的实际情况,提出了增量数据提取方式的改进方法。最后在对攀钢统计系统数据集成技术的优缺点进行总结的基础上,本课题对通用数据仓库ETL工具进行了设计,提出ETL工具的体系架构。该ETL工具具有元数据管理、数据提取、数据转换、数据清洗、数据加载、多线程并发处理、异常处理等功能,最后在该设计框架下,用Java语言实现了该ETL工具的部分模块并进行了测试,测试结果表明该工具是切实可行的,它能够实现通用的,高效的数据提取、转换、清洗、加载等功能。 本文所提出的增量数据提取的改进方法,提高了数据提取的效率;在对通用ETL工具进行设计时提出了以元数据驱动数据ETL过程的方法,以元数据作为系统的中心,实现了系统的智能化;本文所设计的ETL工具还考虑了异常处理问题,并采取将异常处理信息转化为元数据信息的方法,很好地解决了如何反馈异常信息的问题。
其他文献
无线传感器网络是资源受限、分布式、自组织、多跳、以数据为中心的网络,其低成本和高灵活性的优点使其广泛应用于军事侦查、环境监测、医疗健康、交通监控等领域。数据融合
本文研究基于UNIX的数据库系统的各种索引结构设计方法,并具体实现了基于Hash表的索引结构。基于Hash表的索引结构是当前各种主流关系数据库管理系统所使用的基本索引结构之
信息集成就是要从多个自治的,分布的异构数据源中获取信息,建立多数据源的全局统一视图,而无需考虑数据类型、数据存储、物理位置等影响因素,随时随地提供对数据统一、透明的
随着网络的普及和信息技术的发展,校园网各种应用不断扩展和延伸,服务日益增多。用户如果要登录多个系统,不仅要面对多个登录界面,可能还要记忆不同的用户名和口令。每个系统
随着计算机科学技术的发展,软件质量面临着新的任务和考验,软件语义分析作为一种提高软件质量的重要手段受到了社会的广泛关注。但是,目前主要的软件语义分析方法普遍存在着
设计和实施具有容错功能的分布式应用是一项复杂的任务。分布式应用对一致性的普遍要求使共识问题和原子广播问题成为研究的关键所在,因为它们可以用来解决许多在实践中出现
机车交路系统是全路列车运行图系统的三大系统之一,为全路列车运行动力组织工作提供基础。随着我国铁路信息化水平的发展,为满足我国铁路行业快速发展的需要,更大限度的发挥
人脸识别研究的核心问题是使计算机具有身份辨别的能力。该研究具有重大的理论意义和实际应用价值。人脸识别技术的系统研究能够推动人工智能和计算机视觉等相关领域的发展。
智能运输系统(ITS)是当今信息技术领域的研究热点之一,地面交通管制是ITS 领域的一个子课题,其核心研究内容为如何构造高效率的信息系统来提高地面交通管制的效率。指挥中心
在目前众多的保证网络系统安全性的手段当中,入侵检测系统占有一个非常重要的位置。但是随着网络带宽的不断增高,网络数据流量逐渐加大,以往集中式的入侵检测系统往往有严重的丢