论文部分内容阅读
信息系统是现代化企业必不可少的业务系统,里面存储着企业的宝贵财富。激烈的市场竞争使得企业不得不由传统的联机事务处理业务系统和办公自动化系统转向联机分析处理和数据挖掘的商务智能系统,而数据仓库则是商务智能系统的数据基础。数据仓库建设中有60%-80%的开发周期和三分之一的项目成本是花费在ETL上的,使得ETL成为数据仓库项目的瓶颈。针对ETL开发周期瓶颈的问题,本文提出一种基于SCA的ETL架构。把ETL中要解决的主要问题进行更细粒度的划分,采用更细粒度的组件来实现,根据不同问题的特点选择适合的实现方式,然后采用SOA的架构设计思想和其SCA最佳实现方式,把这些细粒度组件实现通过SCA容器统一整合起来。在本架构中把ETL的实现分为四种粗粒度组件,即元数据组件、通用数据源组件、数据质量组件和维度建模组件。其中元数据组件和通用数据源组件属于基础组件,供数据质量组件和维度建模组件调用,各粗粒度组件又包括多个实现具体功能的细粒度组件。本文通过一个实际项目的应用开发,说明基于单一的ETL工具来实现ETL流程时所存在的问题,如数据源的变更,系统的升级,客户提出了更高的需求等,然后论证了基于SCA的ETL架构能够很好的解决这些问题,同时具有极大的灵活性,证明了基于SCA的ETL架构能够降低ETL的开发周期,具有实际的应用价值,最后分析了基于SCA的ETL架构的优缺点及其适用的场景。