论文部分内容阅读
存储技术的迅速发展使得将数据对象全生命周期的状态变化纳入到数据管理的范畴越来越成为可能。数据的全生命周期管理要求掌握和理解数据的产生、转换、更新等过程,这也是数据起源(data provenance)所要解决的问题。这样一种将数据作为“档案”对象对待的新的数据库形态已经开始出现,称之为档案数据库。 随着办公自动化、电子政务的进一步深入和高新技术的推广应用,处理事务过程中产生了丰富的电子文件,电子文件逐渐成为政府文件的主流。文件从产生到归档处理可以不再使用繁琐的纸张一步一步完成,而是由电子计算机和现代通信技术产生大量的电子文件,通过网络联接实现电子档案资源共享和高速传递,从而使档案资源得到更广泛地开发和利用。由于电子文件与纸质文件有许多不同之处,电子文件档案管理和纸质档案管理也有很大的区别。 办公自动化、电子政务等领域中所谓档案管理指的是电子文件的起草、签发、催办、归档等活动。档案的管理具有明显的迭加特征,即某些功能如捕获、归档、著录、鉴定等,不能在一个时间点一次性的完成,需要多次执行,不断补充、积累,直至最终完成。 电子文件档案管理即是一种全生命周期管理活动,它将所有数据作为“档案”对象对待,管理数据的生成、更新等过程,并保存数据的所有版本。这也就是数据起源问题研究,即关注数据的生成及转换历史,并支持历史数据的查询。由于电子文件档案管理具有迭加特征,并行修改中必须确保每个用户不会无意中覆盖另一个用户的工作,因此每次修改都会生成新版本保存修改结果,由此引发了数据的多版本管理以及并发控制问题。 本文主要以电子文件档案管理系统为背景,对档案数据库中的多版本问题进行了研究。对多版本管理、并发控制、历史查询等关键问题和相关理论作了深入的探讨和分析,然后考察了现有的版本管理工具和版本管理模型,并结合档案管理的实际需求,提出了档案数据库的多版本管理模型。本文对传统DBMS作了部分修改,提供以下几方面的支持以满足档案数据库的需要。 (一)允许多个用户同时对一个档案进行内容修改操作,比如不同用户同时著录和鉴定。 (二)记录档案的变更,保存档案的各个版本。 (三)支持数据起源查询,包括数据历史信息和更新情况的查询。 以上方面可以归结为数据的多版本问题。并行修改和数据起源查询要求系统存储和管理档案的多个版本。现在的解决方案一般在应用层完成。通过对关系DBMS进行修改,本文提出了一个基于DBMS的解决方案,希望能够满足档案管理的特殊需求。 这个方案从以下几方面进行展开陈述。第一,对于数据的多版本管理,本文增加了修订和合并两种操作,并提出了基线版本和派生版本的概念,在这个基础上提出了多版本管理策略。第二,需要修改原有的多版本并发控制以支持并行修改,并增大并发度。第三,设计了一系列历史查询接口,支持数据起源查询,即查询变更情况和任何历史版本的信息。