论文部分内容阅读
分类是近年来机器学习和模式识别领域研究的热点问题之一,在分类问题中存在一类特例:各类别样例在数量上相差悬殊,这类数据集被称为不平衡数据集,其中数量占优的类别被称为多数类,稀疏的类别被称为少数类。传统分类算法在类别平衡的数据集上能有效发挥性能优势,在不平衡数据集上传统分类算法为了追求较高的整体分类精度,将倾向于把少数类样例误分为多数类。而这些数量稀疏的少数类一旦被误分所付出的代价将比误分多数类的代价高很多。提高分类器在类别不平衡的数据集上的分类性能和泛化能力在许多应用领域都具有重要价值和现实意义。如银行信贷风险评估系统中正常借贷交易出现的概率要远高于不良信贷出现的概率,银行工作人员最为关注的正是从众多的正常借贷业务中找出这些极少数的不良交易。文本检测、产品质量检验、垃圾邮件过滤等都是类别不平衡数据集的典型应用背景。为简单起见本文仅考虑二分类问题,多分类问题可转换为若干个二分类问题来解决。为了提高类别不平衡数据集上的分类性能人们在传统的分类算法的基础上提出了很多改进算法。如代价敏感、SMOTE重抽样、改进的SVM、单边选择以及被动学习。这些算法概括起来主要在两个方面做了改进:一是在数据层面通过对多数类的欠抽样和对少数类的过抽样技术人为改变数据集的数据分布使之变得类别间基本平衡,然后再采用传统的分类算法;另一种是保持原有数据集的分布特征,在算法层面入手通过调整各类样例的训练权重以使分类器能更好地照顾少数类。这些方法虽然在不同的角度做了改进但少数类的分类精度仍普遍较低,受Valiant的PAC学习模型的启发很多专家和学者期望通过集成的方式将类别不平衡数据集上的弱学习器组合成可有效提高少数类分类性能的强学习器。然而传统集成算法的gma下限与错误率之间是开口朝上的二次函数关系,单纯地降低不平衡数据集上的错误率并不能有效提高少数类的分类精度。本文首先回顾了集成学习中的基本知识和主流模型,讨论了目前集成学习方法的优势和难点。重点分析了针对类别不平衡数据集的各种改进算法。本文作者从关注错分的少数类样例入手分别在数据层面和算法层面提出了两种改进方案并通过实验验证了前一种算法的有效性。本文的主要研究工作有:1、回顾并总结了基分类器的各种组合形式,阐释了各种选择性集成方式。在已有理论成果的基础上分析了刀切法和自助法两种主流重抽样方法的统计学意义,指出在独立同分布且矩有限的条件下通过若干次的重抽样可得到具有良好收敛性的数据模型。分析了类别不平衡数据集的分布特点,讨论了针对类别不平衡数据集的分类评价标准,归纳了类别不平衡数据集上的改进分类算法。2、基于不平衡数据集上的集成学习方案,作者提出了一种新的适用于不平衡数据集的算法ILAdaboost。该算法利用每一轮学习到的基分类器对原始数据集进行测试评估,并根据评估结果将原始数据集分成四个互不相交的子集,然后在四个子集中重新采样形成平衡的数据集供下一轮基分类器学习。重抽样是在四个互不相交的子集中进行的,因此保证了基分类器之间的错误独立性。而抽样过程中更加倾向于少数类和分错的多数类,故合成分类器的分界面会偏离少数类。在10个UCI数据集及2个仿真数据集上的实验结果证实了该算法的有效性。3、在“最富信息”策略指导下本文作者结合不平衡数据集的特点在算法层面提出了一种改进方案。该方案首先参照类别比例分别给多数类和少数类样例赋以不同的初始权重,每轮基分类器训练完成后对原始数据集进行预测评估,并根据不同的预测结果对下一轮的训练样例更新权重。理论上该方案能合理照顾少数类又不至于导致多数类牺牲太多的分类精度。