论文部分内容阅读
随着互联网和信息技术的发展,数据库系统变得越来越复杂,其数据存储规模越来越庞大,管理数据库系统也变得越来越昂贵和繁琐。在传统方式下,主要是依靠系统管理员的手工调节。但这样做无法针对资源利用情况进行动态的调节;同时数据库管理员的费用也为数据库系统的维护带来沉重的负担。自主数据库系统能够自动、主动地对自身进行管理,降低了人为数据库管理的复杂度,从而降低人力成本和系统故障时带来的额外成本。因此,数据库自主技术对于提高数据库系统在关键应用中的应用能力,降低数据库系统的总体拥有成本,减少硬件、软件的投资浪费等都具有非常重要的意义。太原理工大学的牛保宁教授已经提出了数据库系统负载自适应的基本框架。该框架由负载检测过程和负载控制过程组成,负载特征化部件、性能预测部件、负载控制部件和系统监测部件参与其运作。在该框架中,系统能够根据负载的一些特性自动的完成负载的性能预测、控制等功能。在负载自适应数据库系统中,负载特征化部件是关键部分,它首先要对负载分类,然后根据分类的情况预测负载性能。本文主要研究负载的分类问题。由于负载的分类要求实时在线,所以分类必须简单快捷。因此,本文提出一种基于先验知识的增量聚类算法。本文首先介绍了该课题的研究背景,即:自适应数据库的发展和研究状况,以及数据挖掘技术的一些基本情况。接着介绍了聚类技术,包括聚类的定义,数据类型,以及聚类算法的类型和常用的一些聚类算法。然后介绍了在本文中用到的K-means算法和增量聚类算法的思路,计算过程,以及优缺点分析。最后,介绍了基于特征向量的聚类算法和基于先验知识的增量聚类算法,并用实验验证了上述两个算法的有效性。本文的创新之处在于使用了基于先验知识的增量聚类算法,该算法中的先验知识是指基于特征向量聚类算法的结果。也就是说,基于先验知识的增量聚类算法是利用基于特征向量聚类算法的结果对负载分类,而且只是对新增负载分类,不需要对所有的负载重新分类了。而基于特征向量的聚类算法是在离线的时候,系统自动完成的。当系统在线时,只须对新增负载分类。这样大大节省了时间和资源。