论文部分内容阅读
[摘要]诠释OLAP联机分析技术在数字图书馆“数字资源利用分析”多维数据库中的应用;简述数字图书馆“数字资源利用分析”多维数据库MDDB模型的设计。
[关键词]OLAP 数字资源 多维数据库 联机分析
中图分类号:TP-9文献标识码:A文章编号:1671-7597(2009)0910130-01
OLAP(On-Line Analytical Processing)在线联机分析处理技术,是对特定主题进行联机查询、分析处理,从多角度对数据深入了解,将复杂的多维数据以灵活、直观的查询结果提供给决策人员、管理人员以供决策分析的软件技术。目前,高校图书馆投入大量经费购买国内外学术数据库数字资源,但对需求利用、资源选择、投入效应缺乏具体分析措施,存在盲目投资;数字资源膨胀、重叠现象。OLAP联机分析技术用于数字图书馆数字资源利用分析,将数字图书馆购买的各学术数据库在一定时期内用户以各种方式访问的利用情况以表格的形式加以描述,建立“数字资源利用分析”多维数据库MDDB(multi dimensional database),对数字资源利用状况进行量化,分析数字资源利用效益,优化数字资源利用。
一、基于OLAP技术的数字资源利用分析模型
(一)确定维表与事数表
“数字资源利用分析”的多维数据库应先确定四个维表、一个事实表。描述数字图书馆购进学术数据库在本年内用户以各种方式访问的次数。
四个维表:1.时间ID:月份;2.数据库ID:CNKI数据库、RSC英国皇家化学会电子刊、维普科技期刊、万方数据库(笔者所在图书馆购进24个国内外学术数据库,由于篇幅有限只列举以上几个);3.访问方式ID:浏览、检索、登录、下载、引用;4.用户ID:化工学院、高分子科学工程学院、机电学院、信息科学技术学院等。
事实表描述多维模型维度的交叉点:时间、购买数据库、访问方式、利用值。
(二)建立“数字资源利用分析”的多维数据库MDDB的立方体模型
“数字资源利用分析”的三维立方体模型如(图1)所示,实为一个四维数组(维1,维2,维3,数值变量),创建本模型目的不在观察其结构,而是描述三维交点表达的变量,如(图1)本模型描述的是数字资源的利用值,如利用值A(万方数据库,4月,检索,1250次)即万方数据库在4月份被检索1250次。需要说明的是数据资源利用总值不能简单地将各利用方式次数相加,浏览、检索、登录、下载、引用依次反映的利用价值权数(利用值/次数)是逐渐上升的,应分别给予逐渐上升的权数:W1、W2、W3、W4、W5,如万方数据库换算出的利用值U=浏览次数*W1+检索次数*W2+登录次数*W3+下载次数*W4+引用次数*W5。
二、基于0LAP技术的数字资源利用模型联机分析技术
目前数据库供应商以捆绑式整体销售,数字资源利用分析模型维度锁定各大数据库中,而图书馆非常关注按分库、篇、刊购买方式,可预见未来数字资源购买将打破整盘预定方式,如CNKI数据库有十个分数据库,万方数据库有五大分数据库;用户维学院可细分为系,系又可细分为专业;时间维可细分为季度、月、日。这样在原维表上出现分支,原ROLAP(Rela
tional OLAP)星型模型中的数据库资源、用户、时间、维表变成了事实表,而它们的分支出现了新的维表,形成MOLAP(Multidimensional OLAP)雪花模型构架的多层维表组成的结构。
在以MOLAP雪花型架构创建了“数据资源利用分析”MDDB模型后,为深入了解立方体数据中的信息,OLAP联机分析引擎从多个角度可利用切片、切块、钻取、旋转技术剖析数据,从更深、更细的层次对数据模型进行分析。
(一)数字资源利用分析模型的切片、切块分析
模型切片(slice)分析是针对某一维成员进行分析操作的,如在(图1)维普维上横切片可研究维普数据库的利用情况,得(图2)横切片,分析维普数据库每月以各种方式访问的次数及利用值;竖切片可分析某月份所有数据资源数据库访问情况或以某种利用方式访问数资源数据库情况。
模型切块(dice)从“数字资源利用分析”立方体模型中抽出一个子立方体进行分析,可以看成多次切片叠合而成,提供不同数据资源、月份、访问方式之间进行比较。
(二)数字资源利用模型的钻取分析
在MOLAP雪花模型结构中,维成员是有层次的,OLAP的钻取分析提供了在各不同维层次中的聚合与细分,上钻取(drill-up)、下钻取(drill-down)。
上钻取亦称聚合,它是在维层次中将低层次维的数据汇总到高层次维的数据,如在时间维一、二、三月份中上钻取可得一季度的数字资源利用值。
下钻取是上钻取的反运算,它是从汇总的维层次数据深入到细节层次数据或在最底维层次上增加新的维分支,详细了解立方体中的具体利用情况。
笔者所在学校数学图书馆已购买24个国内外著名的数据库数字资源,现已研制出“数字资源利用分析”的基本模型,下一步将研制开发利用SQL server语言创建“数字资源利用分析数据库”,利用数据库结构查询语言
SQL Server的Analysis Manager控制台中的“共享维度”、“多维数据集”创建存储时间维、数据库资源维、访问方式维及数据集事实表。利用OLAP工具具体分析各大数据库利用情况(待续)。重组数字资源,实现数字资源最佳配置。
参考文献:
[1]王丽珍、周丽华等,数据仓库与数据挖掘原理及应用[M].北京:科学出版社,2005.
[2]张云涛、龚玲,数据挖掘原理与技术[M].北京:电子工业出版社,2004.
[3]http://library.qust.edu.cn/old/ziyuan.asp.
作者简介:
谭春曦(1962-),女,馆员,从事电子信息资源研究。
[关键词]OLAP 数字资源 多维数据库 联机分析
中图分类号:TP-9文献标识码:A文章编号:1671-7597(2009)0910130-01
OLAP(On-Line Analytical Processing)在线联机分析处理技术,是对特定主题进行联机查询、分析处理,从多角度对数据深入了解,将复杂的多维数据以灵活、直观的查询结果提供给决策人员、管理人员以供决策分析的软件技术。目前,高校图书馆投入大量经费购买国内外学术数据库数字资源,但对需求利用、资源选择、投入效应缺乏具体分析措施,存在盲目投资;数字资源膨胀、重叠现象。OLAP联机分析技术用于数字图书馆数字资源利用分析,将数字图书馆购买的各学术数据库在一定时期内用户以各种方式访问的利用情况以表格的形式加以描述,建立“数字资源利用分析”多维数据库MDDB(multi dimensional database),对数字资源利用状况进行量化,分析数字资源利用效益,优化数字资源利用。
一、基于OLAP技术的数字资源利用分析模型
(一)确定维表与事数表
“数字资源利用分析”的多维数据库应先确定四个维表、一个事实表。描述数字图书馆购进学术数据库在本年内用户以各种方式访问的次数。
四个维表:1.时间ID:月份;2.数据库ID:CNKI数据库、RSC英国皇家化学会电子刊、维普科技期刊、万方数据库(笔者所在图书馆购进24个国内外学术数据库,由于篇幅有限只列举以上几个);3.访问方式ID:浏览、检索、登录、下载、引用;4.用户ID:化工学院、高分子科学工程学院、机电学院、信息科学技术学院等。
事实表描述多维模型维度的交叉点:时间、购买数据库、访问方式、利用值。
(二)建立“数字资源利用分析”的多维数据库MDDB的立方体模型
“数字资源利用分析”的三维立方体模型如(图1)所示,实为一个四维数组(维1,维2,维3,数值变量),创建本模型目的不在观察其结构,而是描述三维交点表达的变量,如(图1)本模型描述的是数字资源的利用值,如利用值A(万方数据库,4月,检索,1250次)即万方数据库在4月份被检索1250次。需要说明的是数据资源利用总值不能简单地将各利用方式次数相加,浏览、检索、登录、下载、引用依次反映的利用价值权数(利用值/次数)是逐渐上升的,应分别给予逐渐上升的权数:W1、W2、W3、W4、W5,如万方数据库换算出的利用值U=浏览次数*W1+检索次数*W2+登录次数*W3+下载次数*W4+引用次数*W5。
二、基于0LAP技术的数字资源利用模型联机分析技术
目前数据库供应商以捆绑式整体销售,数字资源利用分析模型维度锁定各大数据库中,而图书馆非常关注按分库、篇、刊购买方式,可预见未来数字资源购买将打破整盘预定方式,如CNKI数据库有十个分数据库,万方数据库有五大分数据库;用户维学院可细分为系,系又可细分为专业;时间维可细分为季度、月、日。这样在原维表上出现分支,原ROLAP(Rela
tional OLAP)星型模型中的数据库资源、用户、时间、维表变成了事实表,而它们的分支出现了新的维表,形成MOLAP(Multidimensional OLAP)雪花模型构架的多层维表组成的结构。
在以MOLAP雪花型架构创建了“数据资源利用分析”MDDB模型后,为深入了解立方体数据中的信息,OLAP联机分析引擎从多个角度可利用切片、切块、钻取、旋转技术剖析数据,从更深、更细的层次对数据模型进行分析。
(一)数字资源利用分析模型的切片、切块分析
模型切片(slice)分析是针对某一维成员进行分析操作的,如在(图1)维普维上横切片可研究维普数据库的利用情况,得(图2)横切片,分析维普数据库每月以各种方式访问的次数及利用值;竖切片可分析某月份所有数据资源数据库访问情况或以某种利用方式访问数资源数据库情况。
模型切块(dice)从“数字资源利用分析”立方体模型中抽出一个子立方体进行分析,可以看成多次切片叠合而成,提供不同数据资源、月份、访问方式之间进行比较。
(二)数字资源利用模型的钻取分析
在MOLAP雪花模型结构中,维成员是有层次的,OLAP的钻取分析提供了在各不同维层次中的聚合与细分,上钻取(drill-up)、下钻取(drill-down)。
上钻取亦称聚合,它是在维层次中将低层次维的数据汇总到高层次维的数据,如在时间维一、二、三月份中上钻取可得一季度的数字资源利用值。
下钻取是上钻取的反运算,它是从汇总的维层次数据深入到细节层次数据或在最底维层次上增加新的维分支,详细了解立方体中的具体利用情况。
笔者所在学校数学图书馆已购买24个国内外著名的数据库数字资源,现已研制出“数字资源利用分析”的基本模型,下一步将研制开发利用SQL server语言创建“数字资源利用分析数据库”,利用数据库结构查询语言
SQL Server的Analysis Manager控制台中的“共享维度”、“多维数据集”创建存储时间维、数据库资源维、访问方式维及数据集事实表。利用OLAP工具具体分析各大数据库利用情况(待续)。重组数字资源,实现数字资源最佳配置。
参考文献:
[1]王丽珍、周丽华等,数据仓库与数据挖掘原理及应用[M].北京:科学出版社,2005.
[2]张云涛、龚玲,数据挖掘原理与技术[M].北京:电子工业出版社,2004.
[3]http://library.qust.edu.cn/old/ziyuan.asp.
作者简介:
谭春曦(1962-),女,馆员,从事电子信息资源研究。