面向机器学习城镇不平衡数据集分类方法的研究

来源 :中国地质大学 | 被引量 : 0次 | 上传用户:cyydn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
遥感信息提取技术在国民生活的各方面发挥着重要作用。然而,绝大多数遥感信息提取应用所面对的都是不平衡数据集。特别地,随着城镇化建设的不断推进,人类活动的干预,城镇区域遥感数据集呈现出越来越严峻的不平衡状态。但是,大多数信息提取技术会在少数类上形成不适当的偏置,甚至导致少数类的分类失败,从而限制信息的准确获取。所以,针对常态化的城镇遥感不平衡分类问题,提高少数类的识别精度的同时保证场景内其它地物的识别性能迫在眉睫。尤其是在大数据背景下,利用有限的先验知识,加强对原始遥感不平衡数据的理解尤为重要,这对于快速响应与合理决策具有十分重要的意义。本文针对城镇区域遥感不平衡分类问题,在深入分析和总结不平衡分类研究现状的基础上,对不平衡分类的单模型响应、学习策略、数据空间转化以及评估方法方面展开研究。引入极限梯度提升树(e Xtreme gradient boosting,XGB)和半监督学习(Semi-supervised Learning),以不增加样本标记代价为前提,提出半监督平等学习XGB分类方法(Impartial semi-supervised learning strategy with XGB,ISS-XGB),并深入研究该分类方法的内部特征对于遥感不平衡分类的影响,建立精度、分歧表现与决策边距三层次评价方法。本文主要工作和研究结论包括:(1)在算法层面,引入XGB模型,分析典型遥感分类方法对不同样本数据分布的响应变化。在8个实验区的实验表明:1)对高分辨率遥感图像,XGB方法在遥感不平衡分类问题中的的表现优于随机森林、多层感知机、支持向量机等典型分类方法,其正确分类输出的置信度较高,但是,模型性能也受到极端不平衡数据分布的影响;2)当样本不平衡性达到一定程度时(例如,少数类与多数类比例大于10:90时),XGB的性能不确定性对地物光谱可分离性并不敏感;3)通过多种指标的比较,以精度(总体精度、少数类F1值)、分歧表现与决策边距组成的三层次评价方法能够从多角度分析分类方法对于不平衡数据集的响应。因此,XGB是一种处理土地覆盖遥感不平衡分类的有效方法,但仍在样本极端不平衡性时,受到数据分布的影响。(2)从学习策略的层面,本文提出了一种平等半监督学习方法(ISS-XGB)。在不增加标记代价的前提下,通过消除训练的偏态分布来建立平等的分类学习系统。通过与半监督学习方法(PU-BP和PU-SVM)以及数据层面典型方法(SMOTE)进行对比,结果表明:1)ISS-XGB可以有效识别少数类,并且不会损失系统性能;2)ISS-XGB中的学习策略的优化和模拟器的选取有助于更平等而全面地学习少数类。与PU-BP和PU-SVM相比,总体精度与少数类F1值高出约20%和15%;与基于SMOTE的分类方法的精度结果十分接近,但是却比后者更加稳定;3)ISS-XGB的预测置信度不如即席学习方法。(3)从集成学习要素(准确性与多样性)的层面,本文提出模型扰动(ISS-Hybird C)和参数扰动(ISS-Hybird P),在不同加权集成机制下,研究不同特点的ISS集成系统对于遥感不平衡分类问题泛化能力的改变。结果表明:1)基学习器的准确性对于ISS集成系统的影响比多样性更显著;2)基于参数扰动的ISS-Hybird P能够在保证精度和分歧表现的同时大幅度提高方法的MPM性能(平均提高53.85%);3)不同的加权集成机制(MSE、Fpb、MPM)能够改善混合集成的波动性,但是也会在不同方面影响性能输出。因此,在保证基学习器准确性的基础上,增加内部输出的多样性和应用加权集成策略,能够在不同性能层面提高ISS混合集成系统的泛化能力和置信度。(4)从问题域的层面,本文通过面向对象技术改变数据分布,研究总体分布改变下的遥感不平衡分类问题。结果表明:1)面向对象技术能够提高模型输出的绝对精度值(ISS-XGB最大总体精度达98.13%,少数类F1值最大达0.95左右),但是仍旧会受到不平衡数据集的影响;2)对象的划分有助于提高模型MPM输出,其中ISS-XGB方法比基于像素方法提高近128.98%,且随着区域复杂度的增加而越大。面向对象技术虽能够提高对象特征的同质性,降低分类识别的难度,但仍受到不平衡数据集的挑战。
其他文献
碳是重要的生命元素之一,其独特的化学性质使其能够与不同元素结合,以固体、液体、气体等形式广泛地存在于地球的各个圈层中。碳酸盐类是含量最丰富的含碳相,也是常见的造岩矿物,在地球的地质演化过程中扮演着重要角色。光谱学被广泛的应用于研究碳酸盐在高温高压情况下的结构相变、热力学性质等。如利用振动光谱计算矿物高温高压下的热力学状态及同位素平衡分馏系数。本文以拉曼光谱和红外光谱作为主要研究手段,对方解石族和文
三江特提斯域由多条蛇绿混杂岩带、(微)陆块和岩浆弧带组成,记录了从早古生代以来原特提斯洋至新生代新特提斯洋发展演化旋回。虽然很多地质学家认为滇西南地区可能存在早古生代原特提斯洋,但缺乏原特提斯洋存在的蛇绿混杂岩等直接证据。因此,地质学家对冈瓦纳大陆北缘板(地)块,如喜马拉雅、拉萨、南羌塘、保山、腾冲、Sibumasu和印支板块、华南板块等古生代岩浆岩事件、造山运动及变质事件等认识不同。近些年来,在
名义上无水矿物晶格中赋存的少量结构水能对矿物和岩石的物理化学性质产生显著的影响,包括可以有效降低岩石和矿物的流变强度。结构水与流变强度之间的定量本构关系是当前流变学研究的热点和难点问题。单斜辉石和斜长石是下地壳的重要组成矿物,其流变学性质,尤其是在含水条件下的流变强度对于约束下地壳,乃至岩石圈的流变强度具有重要意义。本论文以单斜辉石和斜长石的流变强度为研究对象,运用先进的高温高压变形实验技术,定量
自从晚古生代冰期在早二叠世结束后,直到早三叠世全球极端高温事件结束,地球上曾发生了两次大规模的火山岩省喷发事件,地球环境也经历了从冰室转变成温室最后又回到正常状态的重大变化过程。而这些重大、异常的环境变化,也促成了海洋生态系统由古生代类型向中、新生代类型的重大转变。因此,生物在此关键地质历史转折与突变期的具体演化模式,是近几十年来国、内外古生物学家研究的热点问题。而作为生物的基本属性之一,其形体(
基于“岩浆供给假说”提出的全球海底热液活动频度经验公式不仅揭示了全球大洋中脊和岛弧-弧后盆地热液系统频度特征及其控制机制,还为调查海底多金属硫化物成矿潜力提供了重要指示。近年来,不同构造背景下的海底热液活动的调查研究结果对热液活动频度经验公式不断进行着修正和完善,例如,快速扩张东太平洋海隆、中速扩张加拉帕格斯洋脊、慢速扩张北大西洋中脊等。但是,该经验公式在超慢速扩张洋脊的适用程度尚待验证。中国大洋
我国福建东南沿海地区发育的漳州盆地、福州盆地以及邻近的潮汕盆地等一系列新生代滨海盆地,还有同时伴生的北西向断层,它们构成了十分瞩目的地质现象,在地理位置上构成了向南东凸出的锯齿状弧形,属于中国大陆边缘陆域地块的最前缘。这些滨海盆地在毗邻中国东部新生代边缘海的同时又与地球上最活跃的造山带之一,台湾造山带隔海相望,它们最有可能记录了新生代以来西太平洋俯冲带活跃的沟-弧-盆系统对邻近陆域地块的影响。漳州
中国所在的东亚大陆及其相邻海域,被欧亚板块、太平洋板块和印度板块所环抱,在大陆板块与大洋板块、板缘与板内构造复杂交织的区域背景下,频繁遭受挤压、拉伸和剪切作用影响,拥有十分复杂的地貌特征、活跃的地壳变形活动、以及频繁的地震和火山活动。板块运动对我国大陆边缘含油气盆地如渤海湾、柴达木和琼东南盆地等的形成和演化具有重要影响。本文充分利用地震、测井、岩心和地球化学等资料,从盆地动力学角度,围绕中国大陆边
本文基于西准噶尔和华南7条剖面、300余件孢粉样品进行处理,识别出西准噶尔和华南法门期疑源类30属55种、孢子35属54种,并对西准噶尔地区1个联合种进行修订和多个属种在该地区进行首次报道;新疆西准噶尔洪古勒楞组下部孢子组合可与东欧Cyrtospora cristifer–Diaphanospora zadonica(CZ)孢子组合带和西欧Knoxisporites dedaleus–Diduci
青藏高原作为当前世界上最新且仍在持续俯冲的大陆碰撞造山带,其巨厚地壳的成因和地表岩浆的动力学演化过程一直是地学界非常关注的科学问题。石榴角闪岩可能是青藏高原中下地壳主要岩石类型之一。然而,目前国际上对石榴角闪岩的部分熔融和变形实验研究程度很低,在很大程度上限制了我们对深部地壳变形和部分熔融的认识。为了探究青藏高原壳源岩浆成因以及石榴角闪岩流变强度、变形机制和地震波速各向异性,本论文以石榴角闪岩为主
地球早期地壳形成和生长过程以及地球动力学演化是固体地球科学研究的前沿和难点。华北克拉通经历了早期的陆核形成、新太古代地壳生长、地体拼合与古元古代裂解-陆陆碰撞的克拉通化过程,是探索大陆地壳生长和早期地球动力学体制的天然实验室。然而,由于早前寒武纪岩石出露有限以及研究方法的侧重性不同,目前对华北克拉通太古宙-古元古代大地构造演化的精细过程,尤其是对太古宙末期(~2.5 Ga)这一重要构造事件的性质和