最小最大模块化支持向量机数据划分及其应用研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:porminor100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断进步,现实领域产生了海量的数据。传统简单的分类器无法对海量数据准确地进行分类,而已有的研究表明,集成学习方法是一种有效的解决海量数据分类的方法。本文研究的是基于涌现理论的集成学习方法——最小最大模块化支持向量机(M3-SVM)。M3-SVM主要分成两个部分:首先对海量数据集采用一定的划分策略进行分解,然后通过MIN规则和MAX规则集成各个基分类器的结果。对数据集划分策略来说,算法的优劣在很大程度上影响着M3网络的性能。所以如何找到一种有效且复杂度较低的训练集划分方法,从而得到相对平衡的划分子集对M3网络非常重要。M3网络中已采用了随机划分、超平面划分、等分割聚类、谱聚类和基于先验知识等多种数据划分方法。但是这些划分方法或者没有考虑到原始数据集的分布属性,或者过于复杂。针对此问题,本文提出了一种基于优化的二分K-means的训练集划分方法,它时间复杂度较低且可以有效地避免陷入局部最优解。但是二分K-means的准则函数只考虑了簇内的紧凑性,而没有考虑到簇间的差异性,不能有效地对不平衡数据进行分类。于是本文对二分K-means的准则函数进一步研究,提出了基于均衡化函数的二分K-means的训练集划分方法。基于均衡化函数的二分K-means的训练集划分方法不仅可以得到全局最优解,且时间复杂度较低,还可以得到相对均衡的划分子集。在现实的数据集上的实验结果表明,基于均衡化函数的二分K-means划分方法在不提高时间开支的情况下有效的提高了M3-SVM的分类准确率。入侵检测数据存在着数据量大且严重不平衡的问题,为了验证基于均衡化函数的二分K-means划分方法对不均衡数据集有较好的划分效果,本文在现实的入侵检测数据集KDD CUP99上进行了实验。结果表明,本文提出的划分方法能有效提高M3-SVM的检测性能。
其他文献
中国民航的迅猛发展令世界瞩目,民航在国家综合交通运输体系中的比重也不断提升,对国家经济、社会发展和改革开放做出了新的更大贡献。但是,不断新建、扩建的机场和持续增长的航
近年来随着计算机科学技术和电子商务的快速发展,组合拍卖的应用前景越来越广泛,而组合拍卖的求解效率是组合拍卖的核心问题,因此求解效率的高低直接影响到组合拍卖在现实生活中
随着计算机技术的发展,在各种领域如计算机视觉、人脸识别、生物信息以及医学上都面临着高维数据的难题。高维数据中往往包含了冗余信息和噪声。数据降维是将高维数据投影至
本文以电子商务平台供应链云预研项目的研究开发为应用背景,对基于搜索框/资源池的云计算模型进行了研究,在分析当前集中式搜索引擎系统的基础上,总结了现有系统的优缺点,针对现有
学位
特征选择是统计模式识别中的一个基本步骤和重要任务,并被广泛的应用于图像处理、文本挖掘、计算神经学以及生物信息学等诸多领域。在这些实际应用中,研究对象的观测值(即样
人脸识别是计算机视觉和模式识别领域研究热点之一,具有广泛的应用前景。本文对人脸识别技术进行深入学习和研究,结合当前人脸识别领域中的优秀算法,采用基于肤色检测和AdaBoost
目前,大部分构件的动态组装方法的研究都着眼于软构件模型和运行时软构件的互操作,而很少将其关注点融入整个业务系统的抽象到实现的过程中。复用和组装层次也大都集中在软构件
三支决策理论(3WD)由三种决策规则组成,分别是接受决策、拒绝决策和不承诺决策。在传统的二支决策的基础上,三支决策增加了一个不承诺决策选项,即表示人们可以在信息不充分的
门限代理重签名不仅能防止代理者签名权利过分集中而被滥用,还可保证重签名密钥的安全性和完整性。目前,门限代理重签名方案大多是基于证书或者基于身份的,不可避免的存在密钥托