论文部分内容阅读
[摘要] 目前商业领域中交易电子化是发展趋势。为了解客户购物行为特征并进行有效决策,本文提出一种基于数据仓库和OLAP技术的解决方案,通过建立商品销售数据仓库,利用联机分析的快速数据统计为商业企业提供决策支持。
[关键词] 数据仓库 OLAP 商业
一、引言
在当今日益激烈的竞争环境下,企业要生存、发展,就必须具有能对不断变化的商业环境进行分析、预测并做出快速反应的能力。要做到这一点,企业的决策分析人员能否及时地从大量的原始数据中提取更多、更准确、更有效的信息是关键。企业传统的OLTP(联机事务处理)系統不能满足人们对数据做深层次分析的要求。因此,数据仓库和OLAP(联机分析处理)技术便应运而生了。
二、数据仓库技术
数据仓库是在关系数据库、并行处理和分布式技术的飞速发展基础上提出的,是解决信息技术在发展中存在的拥有大量数据却有用信息贫乏这一问题的综合解决方案。各家学说对于什么是数据仓库都有自己的定义,但内容是见仁见智。经典的数据仓库概念是由美国著名信息工程学家 W.H.Inmon 在他的 《Building the Data Warehouse》一书给出的:“数据仓库(Data Warehouse,DW)是面向主题的、集成的、时变的、非易失性的数据集合,用于支持管理层的决策过程。”
三、联机分析处理技术
联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的要求,SQL对大数据库的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询结果并不能满足决策者提出的需求。因此,Codd提出了多维数据库和多维分析的概念,即OLAP。
OLAP是一种决策分析工具,它可以根据决策分析者的需要将数据进行分类和运算,对大量数据进行复杂的查询处理,并以直观的、易理解的形式将查询结果提供给决策分析者,以便他们准确掌握企业(公司)的经营状况,了解市场需求,制定正确营销方案,增加效益。
四、商业销售数据仓库的总体设计
1.数据仓库系统结构
本文背景是某大型电器卖场,通过综合考虑原系统的数据环境和卖场管理决策者的需求,设计商业销售数据仓库系统。系统结构如图1所示。开发该系统大致分为三个阶段:数据抽取、转换和加载阶段、多维数据结构的创建管理阶段和 OLAP 应用系统开发阶段。
商业销售数据仓库系统的数据处理流程为:数据采集系统根据已确定的主题域,采集原有OLTP数据库中的相关业务数据,重整后归类存放到数据仓库,然后通过OLAP工具将数据仓库的数据多层次分类汇总,从而建立多维数据模型,并存储在OLAP服务器中,最后结合报表软件开发OLAP应用系统将数据灵活地呈现给用户。
本系统采用Microsoft 的数据仓库解决方案,Microsoft 的数据仓库解决方案为创建数据仓库系统的每个部分都提供了所需的工具,使快速开发数据仓库系统成为可能。
2.数据抽取、转换和加载(ETL)
数据仓库中的数据是面向主题组织的,首先根据商业销售的特点和卖场决策人员的需求,可以确定主题域为商品销售。根据确定的主题域和信息分析需求,从原有OLTP数据库中抽取相关数据,进行净化、转换和聚合,最后存放于商业销售数据仓库中。由于数据仓库
的设计直接影响到能否方便地设计和构造多维数据结构来满足用户多层次,多角度的决策分析,因此在抽取、转换和加载过程中还要根据将要建立的多维结构特性对部分数据进行调整。本系统采用Microsoft SQL Server 2005 提供的Integration Services工具来实现数据转换。
3.多维数据结构创建和管理
在多维数据结构创建和管理阶段,根据卖场中高层管理人员分析的自然方式建立数据模型,将数据仓库中的数据按照一定的层次进行聚合、汇总,构成信息分析的多维视图,最后选择一定的存储模式,将这些多维视图存储在OLAP服务器中。
(1)数据仓库的存储和多维数据模型的建立
基于关系表的存储方式有两种模型:星型模型和雪花模型。商业销售数据仓库采用星型模型。图2为商品销售的星型模型。该模型的商品销售事实表连接了4个维度表:时间维度表,产品维度表,员工维度表,供货商维度表。通过这4个维度表的主键将事实表和维表连接一起,形成了星型模型。所以只要扫描事实表就可以查询,而无需把多个庞大的表连结起来。同时维度表一般比较小,与事实表连接时其速度较快,这样就大大加快了查询速度。
(2)OLAP分析实现
本系统采用Microsoft SQL Server 2005 提供的Analysis Services工具管理多维数据集。
利用Analysis Services,根据数据仓库中的事实表和维度表,建立了“商品销售”多维数据集后,就可以利用其中的工具,对多维数据集的不同维度、不同层次进行钻取、旋转、切片等操作,从而可以方便地查看数据仓库的内容。
①向上钻取。通过一个维的归约,在多维数据立方体上进行聚集。如在时间维度上,可由“日”层向“月”层向“年”层聚集数据。
②向下钻取。向下钻取是向上钻取的逆操作,是由不太详细的数据到详细的数据。
③切片与切块。切片在多维数据立方体的一个维上进行选择。如年=“2007”。切块操作在数据立方体的两个或两个以上的维上进行选择,如产品名称=“三星VP-DC171WI/CHN”and 年=“2007”。
五、结束语
本文在商业企业已有系统的基础上,将数据仓库和OLAP技术引入,建立商业销售数据仓库和OLAP多维数据模型,并在此基础上进行OLAP分析,从而快捷有效地得出有价值地决策信息,帮助商业企业在市场竞争中取得优势。
参考文献:
[1]王珊:数据仓库技术与联机分析处理[M].科学出版社,1998
[2]沈兆阳:SQL SERVER 2000 OLAP解决方案——数据仓库Analysis Services[M].清华大学出版社,2001
[关键词] 数据仓库 OLAP 商业
一、引言
在当今日益激烈的竞争环境下,企业要生存、发展,就必须具有能对不断变化的商业环境进行分析、预测并做出快速反应的能力。要做到这一点,企业的决策分析人员能否及时地从大量的原始数据中提取更多、更准确、更有效的信息是关键。企业传统的OLTP(联机事务处理)系統不能满足人们对数据做深层次分析的要求。因此,数据仓库和OLAP(联机分析处理)技术便应运而生了。
二、数据仓库技术
数据仓库是在关系数据库、并行处理和分布式技术的飞速发展基础上提出的,是解决信息技术在发展中存在的拥有大量数据却有用信息贫乏这一问题的综合解决方案。各家学说对于什么是数据仓库都有自己的定义,但内容是见仁见智。经典的数据仓库概念是由美国著名信息工程学家 W.H.Inmon 在他的 《Building the Data Warehouse》一书给出的:“数据仓库(Data Warehouse,DW)是面向主题的、集成的、时变的、非易失性的数据集合,用于支持管理层的决策过程。”
三、联机分析处理技术
联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的要求,SQL对大数据库的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询结果并不能满足决策者提出的需求。因此,Codd提出了多维数据库和多维分析的概念,即OLAP。
OLAP是一种决策分析工具,它可以根据决策分析者的需要将数据进行分类和运算,对大量数据进行复杂的查询处理,并以直观的、易理解的形式将查询结果提供给决策分析者,以便他们准确掌握企业(公司)的经营状况,了解市场需求,制定正确营销方案,增加效益。
四、商业销售数据仓库的总体设计
1.数据仓库系统结构
本文背景是某大型电器卖场,通过综合考虑原系统的数据环境和卖场管理决策者的需求,设计商业销售数据仓库系统。系统结构如图1所示。开发该系统大致分为三个阶段:数据抽取、转换和加载阶段、多维数据结构的创建管理阶段和 OLAP 应用系统开发阶段。
商业销售数据仓库系统的数据处理流程为:数据采集系统根据已确定的主题域,采集原有OLTP数据库中的相关业务数据,重整后归类存放到数据仓库,然后通过OLAP工具将数据仓库的数据多层次分类汇总,从而建立多维数据模型,并存储在OLAP服务器中,最后结合报表软件开发OLAP应用系统将数据灵活地呈现给用户。
本系统采用Microsoft 的数据仓库解决方案,Microsoft 的数据仓库解决方案为创建数据仓库系统的每个部分都提供了所需的工具,使快速开发数据仓库系统成为可能。
2.数据抽取、转换和加载(ETL)
数据仓库中的数据是面向主题组织的,首先根据商业销售的特点和卖场决策人员的需求,可以确定主题域为商品销售。根据确定的主题域和信息分析需求,从原有OLTP数据库中抽取相关数据,进行净化、转换和聚合,最后存放于商业销售数据仓库中。由于数据仓库
的设计直接影响到能否方便地设计和构造多维数据结构来满足用户多层次,多角度的决策分析,因此在抽取、转换和加载过程中还要根据将要建立的多维结构特性对部分数据进行调整。本系统采用Microsoft SQL Server 2005 提供的Integration Services工具来实现数据转换。
3.多维数据结构创建和管理
在多维数据结构创建和管理阶段,根据卖场中高层管理人员分析的自然方式建立数据模型,将数据仓库中的数据按照一定的层次进行聚合、汇总,构成信息分析的多维视图,最后选择一定的存储模式,将这些多维视图存储在OLAP服务器中。
(1)数据仓库的存储和多维数据模型的建立
基于关系表的存储方式有两种模型:星型模型和雪花模型。商业销售数据仓库采用星型模型。图2为商品销售的星型模型。该模型的商品销售事实表连接了4个维度表:时间维度表,产品维度表,员工维度表,供货商维度表。通过这4个维度表的主键将事实表和维表连接一起,形成了星型模型。所以只要扫描事实表就可以查询,而无需把多个庞大的表连结起来。同时维度表一般比较小,与事实表连接时其速度较快,这样就大大加快了查询速度。
(2)OLAP分析实现
本系统采用Microsoft SQL Server 2005 提供的Analysis Services工具管理多维数据集。
利用Analysis Services,根据数据仓库中的事实表和维度表,建立了“商品销售”多维数据集后,就可以利用其中的工具,对多维数据集的不同维度、不同层次进行钻取、旋转、切片等操作,从而可以方便地查看数据仓库的内容。
①向上钻取。通过一个维的归约,在多维数据立方体上进行聚集。如在时间维度上,可由“日”层向“月”层向“年”层聚集数据。
②向下钻取。向下钻取是向上钻取的逆操作,是由不太详细的数据到详细的数据。
③切片与切块。切片在多维数据立方体的一个维上进行选择。如年=“2007”。切块操作在数据立方体的两个或两个以上的维上进行选择,如产品名称=“三星VP-DC171WI/CHN”and 年=“2007”。
五、结束语
本文在商业企业已有系统的基础上,将数据仓库和OLAP技术引入,建立商业销售数据仓库和OLAP多维数据模型,并在此基础上进行OLAP分析,从而快捷有效地得出有价值地决策信息,帮助商业企业在市场竞争中取得优势。
参考文献:
[1]王珊:数据仓库技术与联机分析处理[M].科学出版社,1998
[2]沈兆阳:SQL SERVER 2000 OLAP解决方案——数据仓库Analysis Services[M].清华大学出版社,2001