论文部分内容阅读
随着信息技术的不断进步,现实领域产生了海量的数据。传统简单的分类器无法对海量数据准确地进行分类,而已有的研究表明,集成学习方法是一种有效的解决海量数据分类的方法。本文研究的是基于涌现理论的集成学习方法——最小最大模块化支持向量机(M3-SVM)。M3-SVM主要分成两个部分:首先对海量数据集采用一定的划分策略进行分解,然后通过MIN规则和MAX规则集成各个基分类器的结果。对数据集划分策略来说,算法的优劣在很大程度上影响着M3网络的性能。所以如何找到一种有效且复杂度较低的训练集划分方法,从而得到相对平衡的划分子集对M3网络非常重要。M3网络中已采用了随机划分、超平面划分、等分割聚类、谱聚类和基于先验知识等多种数据划分方法。但是这些划分方法或者没有考虑到原始数据集的分布属性,或者过于复杂。针对此问题,本文提出了一种基于优化的二分K-means的训练集划分方法,它时间复杂度较低且可以有效地避免陷入局部最优解。但是二分K-means的准则函数只考虑了簇内的紧凑性,而没有考虑到簇间的差异性,不能有效地对不平衡数据进行分类。于是本文对二分K-means的准则函数进一步研究,提出了基于均衡化函数的二分K-means的训练集划分方法。基于均衡化函数的二分K-means的训练集划分方法不仅可以得到全局最优解,且时间复杂度较低,还可以得到相对均衡的划分子集。在现实的数据集上的实验结果表明,基于均衡化函数的二分K-means划分方法在不提高时间开支的情况下有效的提高了M3-SVM的分类准确率。入侵检测数据存在着数据量大且严重不平衡的问题,为了验证基于均衡化函数的二分K-means划分方法对不均衡数据集有较好的划分效果,本文在现实的入侵检测数据集KDD CUP99上进行了实验。结果表明,本文提出的划分方法能有效提高M3-SVM的检测性能。