ETL中数据增量抽取与数据质量控制的研究与实现

来源 :东华大学 | 被引量 : 0次 | 上传用户:leezuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,企业用户的数据量在近年来得到了爆炸式的增长,想要从海量的数据中提取出有价值的信息变的越发困难,为了充分利用现有的数据资源,从而为企业决策提供有效的科学依据,数据仓库技术运应而生。作为构建数据仓库的重要环节, ETL承担着整合处理数据的重要职责。  本文基于合胜科技决策支持系统(项目管理模块),结合SQLserver2012 R2提供的BI套件,对ETL过程中数据的增量抽取及数据质量控制进行了深入研究。  论文主要的工作如下:  第一,首先本文对数据质量概念和SQL Server Data Quality Services的工作原理进行了介绍,然后在对目前比较流行的增量抽取方案进行分析比较的同时,还对SSIS提供的SCD的工作原理进行介绍。  第二,本文从项目管理的需求出发,建立数据仓库,设计各层ETL数据模型以及mapping中源与目标的对应关系,利用SQL ServerSSIS提供的渐变维度组件并结合其他的增量抽方案设计增量抽取机制。  第三,本文挖掘了项目的数据质量需求,制订了数据清洗方案,并在 ETL过程中使用了DQS提供的数据清洗组件。对于项目中并未出现的数据质量问题,通过举例,进一步介绍如何使用SQL Server Data Quality Services对其进行处理。  已经取得的成果如下:  第一,分析了数据仓库在企业决策分析时重要地位,由此引出了数据质量控制及数据的增量抽取问题。作者深入理解并为读者阐述 ETL的工作流程,数据质量的基本知识,常见的增量抽取机制以及Sql serverBIDS的工作原理。  第二,设计并创建项目管理数据仓库。按照业务需求设计雪花模型,采用多种增量抽取方式对各层进行填充,为后续的工作打下了坚实的基础。  第三,在ETL工程中,使用Data Quality Services剔除源库中的重复记录,规范数据格式,清理一部分的无效数据,最终保证数据能够准确地被抽取到数据仓库中。
其他文献
随着数字技术的发展,图像编辑软件以及图像获取设备被广泛应用和不断更新,即使不具备数字图像专业知识的人也可以轻易地篡改图像并且难以用肉眼识别,而如果这些篡改图像被滥
复杂系统的混沌控制和同步方法的研究是非线性科学研究的热点问题之一。目前,对复杂系统中的实/复单系统的混沌控制以及同步方法已经取得了大量研究成果。但是对单混沌系统混
布局求解是寻找多个较小物体在给定的约束条件下合理地放入特定的较大空间中,得到良好的摆放方案。布局问题属于空间优化问题,理论上属于NP完全问题。由于涉及到物体及剩余空间
佛教在中土发展过程中,不断改变着传统知识世界.佛教类书使佛教知识得到全面、系统的整合,并逐渐将其嵌入到中国传统思想文化体系.特别是《法苑珠林》,其在体例设置、内容的
壁炉在世界各地的使用已经超过一百万年了,人们主要用它来做饭和取暖.然而,在西方的历史中,壁炉却承载着厚重的文化,具有一些特殊的身份.本文试图从文化的视角以《简·爱》为
岩心钻探是地质勘探的重要环节,也是“光谱地壳计划”实施的重要途径。通过对地表和地壳一定深度范围内的光谱探测获取矿物蚀变与矿物成分信息,利用多维可视化技术,建立钻井
近年来,随着通信技术的飞速发展,人们通过网络来交流信息变得越来越频繁。数字图像具有形象、直观、生动等特点被当作交流的信息在网络的传输也越来越广泛,所以保证图像信息
新中国成立以来,我国古代文学先后被划分为近代文学、明清文学、唐宋文学、魏晋南北曹及先秦两汉等文学类别.针对中国传统文学的研究也逐渐取得了显著的成果,并将古代文学间
入侵检测作为一种主动的信息安全保障措施,有效地弥补了访问控制、防火墙和身份认证等传统网络安全防护技术的缺陷。本文在研究国际国内现有入侵检测系统模型的基础上,根据军
目前关联分析等“后入侵检测”技术是安全数据分析的主要方法,主要包括聚合关联、交叉关联、多步攻击关联等。然而它们都是从微观的角度分析安全事件产生告警之间的逻辑关系,