基于CWM的ETL工具的设计与实现

来源 :大连海事大学 | 被引量 : 4次 | 上传用户:mailnewsnow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
ETL(Extract Transformation Loading,ETL)就是从多个异构数据源获取业务数据,进行数据清洗和和转换,存储到数据仓库的过程。ETL是BI/DW的核心和灵魂,按照统一的规则集成并提高数据的价值,是实施数据仓库的重要步骤,ETL的开发也是整个数据仓库系统开发过程中工作量最大、耗时最长的部分。然而,在目前开发ETL系统的过程中,存在着一些问题,其中最典型的就是元数据管理混乱问题。针对这个问题,本文提出一种基于公共仓库元模型(Common Warehouse Metamodel,CWM)来开发ETL系统的思想,CWM是数据仓库和业务分析领域的一个完整的元模型。作为一个元模型,CWM提供了构造描述一个完整信息供应链(Information Supply Chain,ISC)的所有组件的元数据所需要的语法和语义,从而便于数据仓库系统和商业智能系统中的各种工具之间的元数据交换,因此直接在CWM框架下开发ETL工具,能大大缩短开发周期并容易被其他工具所理解。本文首先分析了ETL系统在数据仓库系统中的作用和ETL工具的发展现状,尤其重点介绍了元数据在整个过程中的指导控制作用;详细分析了CWM中对ETL过程提供元模型的各个包的结构,并以现有包为基础归纳出数据抽取、转换和装载元模型。以该元模型为指导设计ETL系统,首先描述了从CWM模型中每个类、属性和关联映射到相应的关系数据库组件中的方法,构建一个全局元数据库来存储元模型结构和ETL规则;分析对操作型数据库中的数据和相应元数据进行抽取的方法,尤其是对增量数据的处理方法和实现;定义如何描述一个数据转换的概念模型及其在CWM模型下的实现算法,最后阐述了数据加载过程的步骤和关键算法。
其他文献
随着我国经济的发展,电力负荷的增长加快,而原有的电网,由于长期投资不足,设备陈旧,技术落后,形成了一些供电瓶颈,因此电网的改造和扩建就成了迫在眉睫的任务。现有的平台系
断层图像重建算法是CT成像系统的重要环节。经过多年的发展,形成了两大类的基本算法,一类是解析重建法,一类是迭代重建法。研究人员已经在这两类算法的发展中取得了很多的突破。
二维矩阵条码是建立在计算机图像处理技术、组合编码原理等理论上的一种图形符号自动识读码制。由于二维条码的信息密度比较高,因此二维条码的有效快速的识别成为当前重要的研
本文针对传统铝电解系统中现有的系统数据共享度、集成度低,且只能进行简单的数据录入、查询、统计等事务性的处理过程,不能发现这些海量的数据中蕴含的对企业生产和管理具有
面向方面软件开发(Aspect-Oriented Software Development,AOSD)是对软件系统中横切关注点进行模块化的新途径,面向方面建模(Aspect-Oriented Modeling,AOM)是AOSD中识别、分离
Web日志挖掘是Web挖掘领域中的一个重要应用研究方向。为用户提供一个不仅内容丰富而且方便实用的网站,以更有效地进行网上浏览,这是每个网站所追求的目标。此外,Web站点能否实
JXTA是一组开放的、一般化的点对点(P2P)协议,其允许任何网络设备以对等体的形式相互地进行通讯和协作。随着互联网内容和接入设备数目的不断增长,点对点计算变得越来越流行
20世纪90年代,本体成为人工智能研究领域的热门课题。本体的定义是共享概念模型的明确的形式化规范说明。一个本体主要包括概念、关系、实例、规则和方法。根据本体的定义,在
随着社会日益信息化,社会的日常运行越来越依赖于软件系统,使得软件质量,尤其是软件可靠性已经成为一个不容忽视的问题。为了提高软件质量,软件可靠性测试在整个软件生命周期
随着社会的发展和人类的进步,体育竞技现在已经成为一个国家和民族文明进步的一个重要标志。为了体育竞技水平的提高,越来越多的国家不断将新的科技应用到体育竞技之中。数据