基于OLAP技术的数字图书馆数字资源利用分析

来源 :硅谷 | 被引量 : 0次 | 上传用户:mouliyue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]诠释OLAP联机分析技术在数字图书馆“数字资源利用分析”多维数据库中的应用;简述数字图书馆“数字资源利用分析”多维数据库MDDB模型的设计。
  [关键词]OLAP 数字资源 多维数据库 联机分析
  中图分类号:TP-9文献标识码:A文章编号:1671-7597(2009)0910130-01
  
  OLAP(On-Line Analytical Processing)在线联机分析处理技术,是对特定主题进行联机查询、分析处理,从多角度对数据深入了解,将复杂的多维数据以灵活、直观的查询结果提供给决策人员、管理人员以供决策分析的软件技术。目前,高校图书馆投入大量经费购买国内外学术数据库数字资源,但对需求利用、资源选择、投入效应缺乏具体分析措施,存在盲目投资;数字资源膨胀、重叠现象。OLAP联机分析技术用于数字图书馆数字资源利用分析,将数字图书馆购买的各学术数据库在一定时期内用户以各种方式访问的利用情况以表格的形式加以描述,建立“数字资源利用分析”多维数据库MDDB(multi dimensional database),对数字资源利用状况进行量化,分析数字资源利用效益,优化数字资源利用。
  
  一、基于OLAP技术的数字资源利用分析模型
  
  (一)确定维表与事数表
  “数字资源利用分析”的多维数据库应先确定四个维表、一个事实表。描述数字图书馆购进学术数据库在本年内用户以各种方式访问的次数。
  四个维表:1.时间ID:月份;2.数据库ID:CNKI数据库、RSC英国皇家化学会电子刊、维普科技期刊、万方数据库(笔者所在图书馆购进24个国内外学术数据库,由于篇幅有限只列举以上几个);3.访问方式ID:浏览、检索、登录、下载、引用;4.用户ID:化工学院、高分子科学工程学院、机电学院、信息科学技术学院等。
  事实表描述多维模型维度的交叉点:时间、购买数据库、访问方式、利用值。
  (二)建立“数字资源利用分析”的多维数据库MDDB的立方体模型
  “数字资源利用分析”的三维立方体模型如(图1)所示,实为一个四维数组(维1,维2,维3,数值变量),创建本模型目的不在观察其结构,而是描述三维交点表达的变量,如(图1)本模型描述的是数字资源的利用值,如利用值A(万方数据库,4月,检索,1250次)即万方数据库在4月份被检索1250次。需要说明的是数据资源利用总值不能简单地将各利用方式次数相加,浏览、检索、登录、下载、引用依次反映的利用价值权数(利用值/次数)是逐渐上升的,应分别给予逐渐上升的权数:W1、W2、W3、W4、W5,如万方数据库换算出的利用值U=浏览次数*W1+检索次数*W2+登录次数*W3+下载次数*W4+引用次数*W5。
  
  二、基于0LAP技术的数字资源利用模型联机分析技术
  
  目前数据库供应商以捆绑式整体销售,数字资源利用分析模型维度锁定各大数据库中,而图书馆非常关注按分库、篇、刊购买方式,可预见未来数字资源购买将打破整盘预定方式,如CNKI数据库有十个分数据库,万方数据库有五大分数据库;用户维学院可细分为系,系又可细分为专业;时间维可细分为季度、月、日。这样在原维表上出现分支,原ROLAP(Rela
  tional OLAP)星型模型中的数据库资源、用户、时间、维表变成了事实表,而它们的分支出现了新的维表,形成MOLAP(Multidimensional OLAP)雪花模型构架的多层维表组成的结构。
  在以MOLAP雪花型架构创建了“数据资源利用分析”MDDB模型后,为深入了解立方体数据中的信息,OLAP联机分析引擎从多个角度可利用切片、切块、钻取、旋转技术剖析数据,从更深、更细的层次对数据模型进行分析。
  


  (一)数字资源利用分析模型的切片、切块分析
  模型切片(slice)分析是针对某一维成员进行分析操作的,如在(图1)维普维上横切片可研究维普数据库的利用情况,得(图2)横切片,分析维普数据库每月以各种方式访问的次数及利用值;竖切片可分析某月份所有数据资源数据库访问情况或以某种利用方式访问数资源数据库情况。
  模型切块(dice)从“数字资源利用分析”立方体模型中抽出一个子立方体进行分析,可以看成多次切片叠合而成,提供不同数据资源、月份、访问方式之间进行比较。
  (二)数字资源利用模型的钻取分析
  在MOLAP雪花模型结构中,维成员是有层次的,OLAP的钻取分析提供了在各不同维层次中的聚合与细分,上钻取(drill-up)、下钻取(drill-down)。
  上钻取亦称聚合,它是在维层次中将低层次维的数据汇总到高层次维的数据,如在时间维一、二、三月份中上钻取可得一季度的数字资源利用值。
  下钻取是上钻取的反运算,它是从汇总的维层次数据深入到细节层次数据或在最底维层次上增加新的维分支,详细了解立方体中的具体利用情况。
  


  
  笔者所在学校数学图书馆已购买24个国内外著名的数据库数字资源,现已研制出“数字资源利用分析”的基本模型,下一步将研制开发利用SQL server语言创建“数字资源利用分析数据库”,利用数据库结构查询语言
  SQL Server的Analysis Manager控制台中的“共享维度”、“多维数据集”创建存储时间维、数据库资源维、访问方式维及数据集事实表。利用OLAP工具具体分析各大数据库利用情况(待续)。重组数字资源,实现数字资源最佳配置。
  
  参考文献:
  [1]王丽珍、周丽华等,数据仓库与数据挖掘原理及应用[M].北京:科学出版社,2005.
  [2]张云涛、龚玲,数据挖掘原理与技术[M].北京:电子工业出版社,2004.
  [3]http://library.qust.edu.cn/old/ziyuan.asp.
  
  作者简介:
  谭春曦(1962-),女,馆员,从事电子信息资源研究。
其他文献
[摘要]通过对Web服务存在的安全性问题和现有相关的安全规范和协议,提出一个基于XML的Web服务安全模型,并加以分析和研究。  [关键词]Web服务 安全 XML  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0910073-01    一、引言    Web服务具有松散耦合、语言中立、平台无关等特点,适用解决不同架构、不同平台间的数据交换和信息共享,应用日益广泛,同
期刊
[摘要]随着J2EE技术在企业级平台系统中的广泛应用,用户对基于JAVA的网络服务器程序的性能与扩展性提出更高的要求。围绕服务器模型中高效NIO实现与高扩展性架构两方面介绍一个网络应用服务器模型,结合实际应用环境对这种模型的特点及优越性进行说明,并指出进一步的研究方向。  [关键词]JAVA NIO 业务扩展  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0910012
期刊
[摘要]以青岛世纪花园为例,从事前控制、事中控制、事后控制三方面对建筑工程质量管理的实施进行探讨。  [关键词]监理 质量控制 工序控制  中图分类号:TU7文献标识码:A文章编号:1671-7597(2009)0910085-01    青岛市世界花园为一高层商用写字楼,建筑面积4.6万平方米,由三元集团公司承建施工,业主委托山东正大工程建设监理公司进行施工监理。该工程使用功能较多,地下三层均为
期刊
中图分类号:TU7文献标识码:A文章编号:1671-7597(2009)0910087-01    一、工程概况    国道106线佛冈南段K2388+920杨名韶桥为1-20.0m钢筋砼中桥,全桥长38.56m,桥梁设计荷载标准为汽-20、挂-100,下部构造为重力式型∪型桥台。该桥于1997年建成通车,至今已使用了了十多年,随着佛冈社会经济的快速发展,国道106线的交通量不断增大、重型车辆增加
期刊
[摘要]random函数在flash里是非常有用的,可以生成基本的随机数、创建随机的移动以及随机的颜色等特效。以在flash领域多年的教学经验,结合操作实际,探讨flash动画创作中如何用好random函数产生其它不同的动画特效,并对random函数的应用作些探讨。  [关键词]探讨 flash random 应用  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0910
期刊
[摘要]在对P2P技术简要论述的基础上,重点分析目前P2P网络系统安全所面临的各种威胁,如路由攻击、带宽消耗攻击、穿越防火墙攻击等,最后针对这些安全问题,指出应着重研究的几个重点。  [关键词]P2P 安全性 安全威  中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0910046-01    一、引言    P2P技术是目前流行于计算机网络技术研究领域的一个热点。P2P不
期刊
[摘要]CO2地质处置作为一种新兴的、有效的处置方法,将阐述其概念,分析其机制,并探讨进行CO2地质处置的理想场所和可行方案,以期能为CO2地质处置在我国的深入开展和应用提供一些观点和见解。  [关键词]CO2 地质处置 温室效应 储存场所  中图分类号:O69文献标识码:A文章编号:167-17597(2009)0910004-01    一、前言    CO2作为一种温室气体,对气候的影响近年
期刊
[摘要]论述当前土地执法监察中存在的问题,简单介绍GPS原理以及在土地执法监察中应用情况,分析当前GPS应用在土地执法监察中的存在的问题。  [关键词]GPS 土地 执法监察  中图分类号:TP7文献标识码:A文章编号:1671-7597(2009)0910123-01    随着社会和经济的发展,我国土地资源的稀缺性将更加凸现,违法用地的现象大量出现,乱批开发区、滥占耕地的情况加剧。还有的个别地
期刊
中图分类号:TP7文献标识码:A文章编号:1671-7597(2009)0910124-01    射频识别技术(Radio Frequency Identification,RFID)是20世纪90年代开始兴起的一种非接触的自动识别技术,它是一项利用射频信号通过空间耦合实现无接触信息传递,并通过所传递的信息达到识别目的的技术[1,2]。  本文结合烟草行业的生产实际,提出了在成垛运输的托盘中采用
期刊
中图分类号:TP7文献标识码:A文章编号:1671-7597(2009)0910119-01    物探测量是服务于物探勘探的一种测量作业模式,是物探勘探的第一道工序,其前提是为物探勘探提供测量服务。物探测量根据物探勘探的具体要求,测设合理可行的物理点位,绘制物理点点位草图,提供准确可靠的物理点成果。测量人员要根据测区的实际,努力应用先进的测绘手段,从测量成果的准确度、时效性等方面做好测绘工作,更
期刊