论文部分内容阅读
聚类分析是数据挖掘领域的一项重要研究内容,它在金融、电信、保险业、市场营销、异常检测、网络安全、科学决策等方面具有十分重要的应用价值,因此受到研究人员的高度重视。已有的聚类算法大多只适用于集中式数据的聚类。由于网络带宽、站点存储量、信息安全及隐私保护等限制,把不同站点的数据全部集中到某一个中心站点进行全局聚类几乎是不可能的。所有站点数据集中在一起,数据量会非常庞大,聚类效率会显著降低。本文对分布式聚类方法作了一些较深入的研究,取得了如下成果:1.提出了高效的分布式k均值聚类方法DK-Means。该方法在站点间只传送少量聚簇信息,有效降低了分布式聚类过程中的数据通信量,并能达到与k均值算法等效的聚类质量。理论分析及实验结果表明,DK-Means是一种有效可行的分布式聚类算法,对于高维数据集同样有效。2.针对聚类数目难以确定的问题,提出了分布式聚类方法α-DK-Means,通过分割和合并聚簇将训练数据集划分成适当数目的聚簇而不必预设聚簇半径。实验结果表明,该方法是有效可行的。3.针对基于密度的分布式聚类算法DBDC通信量大、效率低的缺点,提出了一种基于密度的分布式聚类方法DBDC~*。有效降低了分布式聚类过程中的数据通信量,全局聚类时综合考虑了各站点数据的分布情况,能够对任意形状分布的数据进行聚类。实验结果表明,该方法是有效可行的,对于高维数据集同样有效。4.提出了一种适用于入侵检测的数据预处理方法,定义了类别型属性各取值之间的差异度,使得在对训练集进行无监督学习生成检测模型过程中,能够同时有效地处理数值型属性和类别型属性。理论分析表明,我们所定义的类别型属性值差异度既保留了类别型属性各取值之间的本质特征,同时也没有改变数据集的原始维数。实验结果表明,采用该数据预处理方法进行聚类所建立的入侵检测模型能更有效的检测攻击。5.提出了一种基于分布式聚类的异常入侵检测方法ID-DC。该方法建立在一种无中心的多Agent分布式体系结构之上,通过对训练集进行分布式聚类产生聚簇模型,采用基于双参考点的标识算法标记异常簇,不需要具有类别标签的训练集且可自动确定聚簇模型的个数。实验结果表明,通过该方法所建立的分布式入侵检测模型可有效检测攻击。6.在JAVA平台下设计并实现了基于Agent的分布式入侵检测系统原型,在该系统中实现了基于分布式聚类的入侵检测方法,利用分布式聚类方法建立入侵检测模型。实验测试结果表明,该方法能有效检测各种攻击并且具有对未知攻击的增量学习能力。