基于特征筛选和不同机器学习的数字土壤制图方法的对比

来源 :安徽理工大学 | 被引量 : 0次 | 上传用户:lm4194
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
土壤pH影响着土壤的物理、化学和生物过程,土壤的肥力水平、微生物和动物群活动、C/N比、腐殖质的形成等均与土壤pH密切相关。预测土壤pH的空间分布并进行数字土壤制图对于土壤质量的监测与分区管理有重要意义。本研究收集了安徽省土壤属性数据,以土壤pH为研究对象,利用GIS技术提取地形、植被指数和气候等环境变量。首先,分析环境变量对土壤pH的影响;其次,采用Boruta算法、递归特征消除、模拟退火特征筛选、过滤式特征筛选和主成分分析对环境变量进行特征挖掘,获取最优环境变量组合;再次,基于特征挖掘的结果,使用随机森林、支持向量回归、梯度提升回归模型和深度神经网络几种不同的机器学习方法建立安徽省土壤pH空间预测模型;最后,对比分析不同特征挖掘方法与机器学习模型的组合在土壤pH预测精度方面的表现,并对模型参数的选择和调优进行研究。研究结果为如何选择环境变量并结合机器学习方法进行大区域数字土壤制图的研究提供参考。主要结论如下:(1)几种不同的特征挖掘方法均在一定程度上可以在不改变甚至提高模型精度的情况下,减少原始环境变量的数量,起到降维和去除冗余的效果;相较于使用原始环境变量建模,基于不同特征挖掘方法所建立的机器学习模型可一定程度上提高安徽省土壤pH空间预测的精度和数字土壤的制图效果。几种特征挖掘方法中,Boruta算法可以对环境变量进行重要性排序,变量重要性由高至低分别为X坐标、年均降雨、多尺度谷底平坦度、多尺度脊顶平坦度、年均温、增强植被指数、高程、坡度、地形湿度指数、Y坐标和归一化植被指数;递归特征消除得出的最优特征组合为年均降雨、X坐标、多尺度谷底平坦度、多尺度脊顶平坦度、年均温、增强植被指数、高程,共7个特征;模拟退火特征筛选得出的最优特征组合为X坐标、MRRTF、平面曲率、剖面曲率、高程、年均温,共6个特征;过滤式特征筛选得出的最优特征组合为X坐标、Y坐标、增强植被指数、归一化植被指数、多尺度谷底平坦度、多尺度脊顶平坦度、地形湿度指数、平面曲率、剖面曲率、高程、年均降雨,共11个特征;主成分分析得出的主成分数为5。几种特征挖掘结果均表明在数字土壤建模制图之前进行特征挖掘具有一定的必要性。(2)不同机器学习模型的建模结果均有较高的精度,几种模型在不同方面具有各自的优势,从训练集来说,梯度提升回归模型为最优模型(RMSE=0.32,MAE=0.23,R2=0.93),但存在过拟合问题,模型稳定度最低;从预测精度来说,随机森林为最优模型(RMSE=0.48,MAE=0.57,R2=0.77);从模型稳定性而言,支持向量回归为最优模型,训练集和验证集的R2之差为0.04,低于其他模型;综合考虑预测精度和模型稳定性,深度神经网络为最优模型。从制图角度来说,所有模型预测的土壤pH空间分布大致相同,预测结果的分布与原始值基本相同,均呈“南酸北碱趋势”,研究表明采用机器学习方法进行数字土壤制图具有一定的研究意义。(3)几种模型的参数对土壤pH预测精度影响程度不同,随机森林模型的主要参数ntree和mtry对于模型的影响程度较低,调参较为简单,往往采用默认值对模型精度也无较大影响;对于支持向量回归,无论是单参数gamma和cost,还是两者相结合对于模型精度均有较大影响,所以需要在建模时进行调参;梯度提升回归模型的几个参数对于最终预测精度影响较大,不同参数组合模型对于模型均有较大的影响,所以需要采用网格搜索进行调参;深度神经网络模型则由于参数过多,所以如何进行调参是一个十分复杂的问题,在计算条件允许的情况下也可以采用网格搜索法进行调参。图[26]表[14]参[62]
其他文献
本文以云南省昆明市盘龙区野生动物园后动物表演台下方羊胡子箐废土场拟建拦挡坝(1号挡土坝、2号挡土坝)为研究对象,拦挡坝下游为溪麓南郡住宅小区、清水河居民小组、李荣福
目的:1.调查亳州地区蒸菜资源现状并加以分析,提出蒸菜产业化发展建议,为蒸菜食品资源开发利用提出参考依据。2.以薄荷蒸菜为研究对象,感官评分为依据,优选最佳蒸制工艺,为制
本文旨在探讨萨义德的东方主义理论与旅游的关系。之所以选择埃及作为案例研究,是因为埃及在北非的重要地位,而这恰好是萨义德在《东方学》里的重要关注点。为了将东方主义和埃及的旅游业与政治和国际关系研究联系起来,本论文将重点关注于在东方化下的埃及旅游业对埃及国家认同的塑造作用,特别是在后殖民时代的1956-2010年。本文旨在说明后殖民时期的埃及对殖民时期的东方主义遗产进行再包装,进而利用旅游业对国家政治
随着我国经济和科技的发展日新月异,人民的休闲娱乐趋于夜晚化,夜景建设越来越引人注重,灯光作为夜景创作的骨架,肩负着亮化和美化夜晚的职责。各大城市的夜间照明建设快速发展,园林作为城市重要的组成部分,现代园林照明设计的研究工作也在随之展开。本论文立足于过去,探究世界照明历史,追溯国内外的照明文化根源,并进一步总结出目前国内照明设计的现状:照明设置混乱无序,照明规范不完善。伴随着这些问题对现代园林的照明
研究目的和意义:本研究采用回顾性研究结合Meta分析的方法,通过数据挖掘导师治疗抑郁障碍的用药经验及规律,得出治疗抑郁障碍的主方、药对等,对主方进行疗效和安全性的Meta分析,以获得临证经验和循证证据,为辨治抑郁障碍提供依据。研究方法:数据挖掘:选取2015年1月6日至2019年12月4日韩振蕴主任医师于北京中医药大学东方医院脑病二科专家门诊诊治的抑郁障碍患者病历资料,汇总姓名、性别、出生年月、就
随着股票市场在国内的飞速发展,越来越多的人开始把资金投资到股票当中,但由于股票数量庞大且交易频繁,投资者想要得到更为精准的预测结果需要对大量的数据进行分析。因此,为了降低分析过程当中所需的成本,一些学者关注其在线算法的研究。在线算法是一种可以随着新数据的来临而实时更新样本估计值的算法,这类算法在拥有更高的计算效率的同时也降低了对硬件的要求。当在线算法被用于分析数据量庞大的股票市场时,可以减少该过程
目的:比较IOL Master和A超在白内障合并黄斑病变眼轴测量和人工晶体测算的准确性和评价术后屈光状态。方法:回顾性病例研究,收集2017年12月至2019年5月贵州医科大学附属医院
【目的】研究口腔癌术后软组织缺损即刻行颏下岛状皮瓣修复和功能重建,通过术后随访,分析研究其临床效果和价值。【方法】通过回顾研究方法选取南京医科大学附属淮安第一医院
2019年维多利亚州企业家江苏驻点交流项目,作为一项促进商务交流的联合倡议,于2019年5月11日至17日举行。报告人在此项目担任天然护肤公司贝佰馨的口译员,为其董事长瓦娜·博
随着人们对视频质量的要求越来越高,视频编码技术不断地在完善。目前,高效视频编码标准H.265/HEVC已是主流的视频编码标准。相比于H.264/AVC标准,在相同图像质量下,H.265/HEVC标准节省了50%的码率,但是H.265/HEVC标准的编码复杂度提升了数十倍。因此,在H.265/HEVC标准的基础上,难以做到监控等实时应用。帧间预测是视频编解码的重要组成部分之一,主要包括运动估计和模式