论文部分内容阅读
影响能见度的因子众多且作用机理复杂,对能见度的预测构成了重大挑战。进行能见度的精准预报,对于保障交通安全,提高人们出行质量有着重要的意义。上海作为超大型城市,也是我国最重要的交通枢纽之一,以上海为典型研究区域,研究针对能见度的精准预报体系对公共安全管理具有重要的现实指导意义。在能见度预测研究方面,目前广泛采用的数值预报模式忽略了预报因子与能见度之间的非线性关系,而使用机器学习算法对能见度预报的研究则大多仅依赖于实测数据,缺少对数值预报产品的挖掘,此外现有研究多关注能见度预测的精度,缺少对模型内部机制的探索和解释。针对目前研究的不足,本文开展基于多源数据和机器学习算法的能见度预测研究。论文主要研究内容和结论如下:1)基于多源数据和XGBoost的能见度预测模型构建。论文结合实测数据、WRF数值预报模式预报数据和EC-thin高空预报数据,应用XGBoost算法,创建并训练上海市11个站点未来24小时的能见度预测模型。结果表明:能见度预测模型预测精度整体较好,预测结果较WRF数值预报精度有明显提升,模型的决定系数约60.2%,逐级预报的准确率为81%。2)模型中影响能见度的各因子的重要性分析。通过计算能见度预测模型各因子的重要性,获得对模型精度提升有显著影响的因子。结果表明:污染物浓度,风速风向和相对湿度对模型的精度提升影响较大;相对于WRF预报数据和实测数据,EC-thin高空数据对能见度模型的精度有着较大的影响。3)特征贡献与模型的关系探讨。基于决策路径估计,计算影响能见度模型预测结果的特征贡献。结果表明:起报时间点能见度、WRF预报能见度和WRF预报的PM2.5浓度,是对能见度预测结果贡献较大的3种特征。随着预报能见度的不断增加,WRF预报数据和实测数据,EC-thin高空数据的特征贡献总体上呈由小到大,由负到正的变化。预报数据(WRF预报数据和EC-thin高空数据)对能见度特征贡献总和有着重要的贡献。