类别不平衡数据的集成分类研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户：hacker888888

【摘要】

：

分类是近年来机器学习和模式识别领域研究的热点问题之一，在分类问题中存在一类特例：各类别样例在数量上相差悬殊，这类数据集被称为不平衡数据集，其中数量占优的类别被称为多数类

【作者】

：

王灿伟

【出处】

：

山东师范大学

【发表日期】

：

2012年期

【关键词】

：

集成学习不平衡数据集最富信息策略 AdaBoost 重抽样

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

分类是近年来机器学习和模式识别领域研究的热点问题之一，在分类问题中存在一类特例：各类别样例在数量上相差悬殊，这类数据集被称为不平衡数据集，其中数量占优的类别被称为多数类，稀疏的类别被称为少数类。传统分类算法在类别平衡的数据集上能有效发挥性能优势，在不平衡数据集上传统分类算法为了追求较高的整体分类精度，将倾向于把少数类样例误分为多数类。而这些数量稀疏的少数类一旦被误分所付出的代价将比误分多数类的代价高很多。提高分类器在类别不平衡的数据集上的分类性能和泛化能力在许多应用领域都具有重要价值和现实意义。如银行信贷风险评估系统中正常借贷交易出现的概率要远高于不良信贷出现的概率，银行工作人员最为关注的正是从众多的正常借贷业务中找出这些极少数的不良交易。文本检测、产品质量检验、垃圾邮件过滤等都是类别不平衡数据集的典型应用背景。为简单起见本文仅考虑二分类问题，多分类问题可转换为若干个二分类问题来解决。为了提高类别不平衡数据集上的分类性能人们在传统的分类算法的基础上提出了很多改进算法。如代价敏感、SMOTE重抽样、改进的SVM、单边选择以及被动学习。这些算法概括起来主要在两个方面做了改进：一是在数据层面通过对多数类的欠抽样和对少数类的过抽样技术人为改变数据集的数据分布使之变得类别间基本平衡，然后再采用传统的分类算法；另一种是保持原有数据集的分布特征，在算法层面入手通过调整各类样例的训练权重以使分类器能更好地照顾少数类。这些方法虽然在不同的角度做了改进但少数类的分类精度仍普遍较低，受Valiant的PAC学习模型的启发很多专家和学者期望通过集成的方式将类别不平衡数据集上的弱学习器组合成可有效提高少数类分类性能的强学习器。然而传统集成算法的gma下限与错误率之间是开口朝上的二次函数关系，单纯地降低不平衡数据集上的错误率并不能有效提高少数类的分类精度。本文首先回顾了集成学习中的基本知识和主流模型，讨论了目前集成学习方法的优势和难点。重点分析了针对类别不平衡数据集的各种改进算法。本文作者从关注错分的少数类样例入手分别在数据层面和算法层面提出了两种改进方案并通过实验验证了前一种算法的有效性。本文的主要研究工作有：1、回顾并总结了基分类器的各种组合形式，阐释了各种选择性集成方式。在已有理论成果的基础上分析了刀切法和自助法两种主流重抽样方法的统计学意义，指出在独立同分布且矩有限的条件下通过若干次的重抽样可得到具有良好收敛性的数据模型。分析了类别不平衡数据集的分布特点，讨论了针对类别不平衡数据集的分类评价标准，归纳了类别不平衡数据集上的改进分类算法。2、基于不平衡数据集上的集成学习方案，作者提出了一种新的适用于不平衡数据集的算法ILAdaboost。该算法利用每一轮学习到的基分类器对原始数据集进行测试评估，并根据评估结果将原始数据集分成四个互不相交的子集，然后在四个子集中重新采样形成平衡的数据集供下一轮基分类器学习。重抽样是在四个互不相交的子集中进行的，因此保证了基分类器之间的错误独立性。而抽样过程中更加倾向于少数类和分错的多数类，故合成分类器的分界面会偏离少数类。在10个UCI数据集及2个仿真数据集上的实验结果证实了该算法的有效性。3、在“最富信息”策略指导下本文作者结合不平衡数据集的特点在算法层面提出了一种改进方案。该方案首先参照类别比例分别给多数类和少数类样例赋以不同的初始权重，每轮基分类器训练完成后对原始数据集进行预测评估，并根据不同的预测结果对下一轮的训练样例更新权重。理论上该方案能合理照顾少数类又不至于导致多数类牺牲太多的分类精度。

其他文献

银行业创新:商机与风险之争

激烈的市场竞争趋势和日趋严格的外部监管要求,也对商业银行数据的准确性提出了更高的要求。在互联网、大数据颇为盛行的今天,技术的不断创新为银行业的发展带来了更广泛的渠

期刊

银行业商业银行大数据治理华夏银行

凯迪拉克CTS轿车轮胎压力监视系统故障诊断

一、轮胎压力监视系统概述轮胎压力监视系统（TPMS，Tire Pressure Monitoring System）主要用于在汽车行驶时适时地对轮胎气压进行自动监测，并对轮胎漏气和低气压进行报警，以保障行

期刊

凯迪拉克CTS轿车轮胎压力监视系统故障诊断压力传感器唯一识别码集成模块遥控门锁

多手段联合迅速侦破涉外双尸命案1例

随着犯罪形式的多样化,刑事案件调查中多手段、多方面考虑问题及取证尤显重要。通过尸体检验、现场勘查结合视频、侦查、技侦等多手段,缩小排查范围,可以达到快速破案的目的

期刊

双尸命案法医病理学现场分析

关于准轨铁路限界标准中静态规范内容的理论阐述

本文着重闹述车辆限界部分中的标准计算车辆的规范特性与参数、标准计算曲线半径的参数和车体最大允许制造宽度的计算公式;简要阐述了建筑限界部分中的曲线限界加宽计算公式

期刊

曲线半径固定轴距偏差量建筑限界曲线线路四轴车中心距标准计算准轨铁路理论阐述

刁本恕川草乌洗足方在中医内科的应用

期刊

川乌、草乌洗足内科病老中医经验

张家界高星级酒店精细化管理探析

高星级酒店精细化管理是对企业精细化管理行为的引申和运用,在张家界高星级酒店面临新困境的情况下将精细化管理思想引进高星级酒店管理之中,将有助于实现张家界高星级酒店管

期刊

张家界高星级酒店精细化管理

大型变压器器身装配架的结构设计与制造

设计并研制了一种适用于大型变压器器身装配过程中必须使用的装配架器械,详细阐述了器身装配架的工作原理及其组成结构,该装配架具有结构紧凑、运动灵活、工作可靠等优点。随

期刊

大型变压器结构设计工作原理large transformerstructural designworking principle

创新高职院校职业素质教育模式的思考与实践

文章结合天津滨海新区经济建设的发展对高技能人才的素质要求,以及服务于区域经济建设的高职教育人才培养定位,以天津职业大学为例,探讨了高职院校职业素质教育模式的创新与

期刊

高职院校职业素质模式实践

刁本恕主任医师治疗小儿迁延性腹泻1例验案分析

本文通过一个典型病例进行详细分析,介绍了刁本恕主任医师治疗小儿迁延性腹泻的临床经验。提出对小儿难治性疾病的治疗必从其生理特点入手,对出现的病情变化严密观察详细分析

期刊

刁本恕名中医腹泻/中医药疗法婴儿

基于人工智能的科技情报需求自动感知分析

人工智能视域下人们对于科技情报服务精确性要求显著提升,使其价值持续上升,为情报工作带来挑战和机遇。文章通过概述人工智能和科技情报内容,结合人工智能技术,围绕关键点、

期刊

人工智能科技情报自动感知artificial intelligencescientific and technological informationau

类别不平衡数据的集成分类研究

其他学术论文