论文部分内容阅读
土壤pH影响着土壤的物理、化学和生物过程,土壤的肥力水平、微生物和动物群活动、C/N比、腐殖质的形成等均与土壤pH密切相关。预测土壤pH的空间分布并进行数字土壤制图对于土壤质量的监测与分区管理有重要意义。本研究收集了安徽省土壤属性数据,以土壤pH为研究对象,利用GIS技术提取地形、植被指数和气候等环境变量。首先,分析环境变量对土壤pH的影响;其次,采用Boruta算法、递归特征消除、模拟退火特征筛选、过滤式特征筛选和主成分分析对环境变量进行特征挖掘,获取最优环境变量组合;再次,基于特征挖掘的结果,使用随机森林、支持向量回归、梯度提升回归模型和深度神经网络几种不同的机器学习方法建立安徽省土壤pH空间预测模型;最后,对比分析不同特征挖掘方法与机器学习模型的组合在土壤pH预测精度方面的表现,并对模型参数的选择和调优进行研究。研究结果为如何选择环境变量并结合机器学习方法进行大区域数字土壤制图的研究提供参考。主要结论如下:(1)几种不同的特征挖掘方法均在一定程度上可以在不改变甚至提高模型精度的情况下,减少原始环境变量的数量,起到降维和去除冗余的效果;相较于使用原始环境变量建模,基于不同特征挖掘方法所建立的机器学习模型可一定程度上提高安徽省土壤pH空间预测的精度和数字土壤的制图效果。几种特征挖掘方法中,Boruta算法可以对环境变量进行重要性排序,变量重要性由高至低分别为X坐标、年均降雨、多尺度谷底平坦度、多尺度脊顶平坦度、年均温、增强植被指数、高程、坡度、地形湿度指数、Y坐标和归一化植被指数;递归特征消除得出的最优特征组合为年均降雨、X坐标、多尺度谷底平坦度、多尺度脊顶平坦度、年均温、增强植被指数、高程,共7个特征;模拟退火特征筛选得出的最优特征组合为X坐标、MRRTF、平面曲率、剖面曲率、高程、年均温,共6个特征;过滤式特征筛选得出的最优特征组合为X坐标、Y坐标、增强植被指数、归一化植被指数、多尺度谷底平坦度、多尺度脊顶平坦度、地形湿度指数、平面曲率、剖面曲率、高程、年均降雨,共11个特征;主成分分析得出的主成分数为5。几种特征挖掘结果均表明在数字土壤建模制图之前进行特征挖掘具有一定的必要性。(2)不同机器学习模型的建模结果均有较高的精度,几种模型在不同方面具有各自的优势,从训练集来说,梯度提升回归模型为最优模型(RMSE=0.32,MAE=0.23,R2=0.93),但存在过拟合问题,模型稳定度最低;从预测精度来说,随机森林为最优模型(RMSE=0.48,MAE=0.57,R2=0.77);从模型稳定性而言,支持向量回归为最优模型,训练集和验证集的R2之差为0.04,低于其他模型;综合考虑预测精度和模型稳定性,深度神经网络为最优模型。从制图角度来说,所有模型预测的土壤pH空间分布大致相同,预测结果的分布与原始值基本相同,均呈“南酸北碱趋势”,研究表明采用机器学习方法进行数字土壤制图具有一定的研究意义。(3)几种模型的参数对土壤pH预测精度影响程度不同,随机森林模型的主要参数ntree和mtry对于模型的影响程度较低,调参较为简单,往往采用默认值对模型精度也无较大影响;对于支持向量回归,无论是单参数gamma和cost,还是两者相结合对于模型精度均有较大影响,所以需要在建模时进行调参;梯度提升回归模型的几个参数对于最终预测精度影响较大,不同参数组合模型对于模型均有较大的影响,所以需要采用网格搜索进行调参;深度神经网络模型则由于参数过多,所以如何进行调参是一个十分复杂的问题,在计算条件允许的情况下也可以采用网格搜索法进行调参。图[26]表[14]参[62]