论文部分内容阅读
随着信息技术的快速发展,企业用户的数据量在近年来得到了爆炸式的增长,想要从海量的数据中提取出有价值的信息变的越发困难,为了充分利用现有的数据资源,从而为企业决策提供有效的科学依据,数据仓库技术运应而生。作为构建数据仓库的重要环节, ETL承担着整合处理数据的重要职责。 本文基于合胜科技决策支持系统(项目管理模块),结合SQLserver2012 R2提供的BI套件,对ETL过程中数据的增量抽取及数据质量控制进行了深入研究。 论文主要的工作如下: 第一,首先本文对数据质量概念和SQL Server Data Quality Services的工作原理进行了介绍,然后在对目前比较流行的增量抽取方案进行分析比较的同时,还对SSIS提供的SCD的工作原理进行介绍。 第二,本文从项目管理的需求出发,建立数据仓库,设计各层ETL数据模型以及mapping中源与目标的对应关系,利用SQL ServerSSIS提供的渐变维度组件并结合其他的增量抽方案设计增量抽取机制。 第三,本文挖掘了项目的数据质量需求,制订了数据清洗方案,并在 ETL过程中使用了DQS提供的数据清洗组件。对于项目中并未出现的数据质量问题,通过举例,进一步介绍如何使用SQL Server Data Quality Services对其进行处理。 已经取得的成果如下: 第一,分析了数据仓库在企业决策分析时重要地位,由此引出了数据质量控制及数据的增量抽取问题。作者深入理解并为读者阐述 ETL的工作流程,数据质量的基本知识,常见的增量抽取机制以及Sql serverBIDS的工作原理。 第二,设计并创建项目管理数据仓库。按照业务需求设计雪花模型,采用多种增量抽取方式对各层进行填充,为后续的工作打下了坚实的基础。 第三,在ETL工程中,使用Data Quality Services剔除源库中的重复记录,规范数据格式,清理一部分的无效数据,最终保证数据能够准确地被抽取到数据仓库中。