时间:2021年07月12日 分类:推荐论文 次数:
摘要:为研究京津冀能见度状况和分析影响能见度的特征贡献模式,基于2019年京津冀气象站点和空气质量监测站点数据研究能见度时序变化特征,运用随机森林算法建立能见度估算模型分析影响因子整体解释度,并基于SHAP框架结合随机森林模型构建能见度影响因子可解释模型,对特征因子贡献大小、方向以及单变量贡献情况进行了详细解释和分析:①能见度状况在早晚高峰时较差,每日15时左右最好,工作日和非工作日无明显差别,从季节上看冬季能见度最差;②随机森林模型拟合系数解释方差为0.8973,R2为0.8978,拟合结果良好;③根据SHAP可解释模型分析结果可得,PM2.5是影响能见度的最重要因子,呈负向相关,且贡献度变化率以浓度100μ/m3为转折点由急促转向平缓。实验证明,基于SHAP框架的能见度解释模型不仅能反映贡献度的大小以及影响效应的方向,而且可以对单个变量的贡献进行详细分析,提高了特征贡献分析的精细度和准确性。
关键词:随机森林;能见度;SHAP框架;贡献解释
0引言
大气能见度,又称水平能见度,即视力正常的人能将目标物从背景中识别出来的最大距离[1],一般以米为单位,既是一个气象观测因子,也是反映大气透明度和表征空气质量的重要指标。随着我国经济的快速发展,雾霾天气频发造成城市能见度降低,国家为改善能见度状况也采取许多措施,比如出台相应政策遏制工业污染排放、管理机动车辆及尾气排放、鼓励低碳生活等[2]。能见度下降依然是空气污染方面的重要研究热点。
已有研究表明,气象因素和污染因素是影响大气能见度的主要因素。文献[3]采用2014年邢台市逐时气象监测数据及空气质量监测数据,基于Pearson相关统计方法分析了不同季节邢台市能见度与气温、露点温度、气压、相对湿度、平均风速等气象要素以及SO2、NO2、CO、O3、PM10、PM2.5等污染物浓度的关系,结果表明不同季节各因子与能见度相关性存在差异.
其中PM2.5全年相关系数约为-0.64,相对湿度约为-0.30,分别是与能见度相关性最高的污染物因子和气象因子;文献[4]基于2007年到2015年的20个国家级自动气象站观测数据分析得出北京地区能见度的主要影响因子是PM2.5浓度、相对湿度和风速,相关系数分别为-0.56、-0.54以及0.29,可见能见 度与PM2.5浓度和相对湿度负相关,与风速呈正相关;文献[5]收集了中国宝鸡的长期气象数据分析了能见度变化趋势,运用正矩阵分解受体模型定量分析影响因素并解释了能见度降低的原因等等。
传统的Pearson相关系数、多元线性回归等模型难以反映影响因素与能见度之间复杂的非线性关系,为处理该问题,决策树、支持向量机、神经网络等机器学习算法被应用于能见度研究之中,文献[6]使用决策树算法识别了影响印度加尔各答机场能见度的主要参数,得出影响能见度最主要参数分别是NO2、风速、相对湿度、CO和温度,随后运用人工神经网络构建回归模型,实验结果表明所选影响因素对能见度的总体解释度良好;文献[7]分别使用支持向量机、多层感知器、极限学习机以及高斯处理回归等不同机器学习方法构建西班牙低能见度回归模型,通过对比分析发现极限学习机对低能见度的总体解释度均优于其他方法.
文献[8]使用太原地区2016—2019年的站点监测数据研究了太原市大气能见度时空分布特征,并通过神经网络构建了能见度与相对湿度及PM2.5浓度的非线性关系模型,相关系数超过了0.8,并且通过了显著检验,表明相对湿度及PM2.5对能见度有很高的解释度。受限于机器学习过程的可解释性,以上方法侧重影响因素对能见度的总体解释度和单个影响因素与能见度线性相关程度评估,然而同一影响因素在不同的值域区间内对能见度的影响程度和影响方向可能有所不同,因此有必要对单个影响因素的非线性贡献模式进行更加深入的分析。文献[9]提出的SHAP(shapleyadditiveexplanation)框架能够解释机器学习模型中各特征对每个预测值的贡献,进而帮助人们理解机器学习模型这种“黑箱模型”的运行过程。
文献[10]使用SHAP模型解译了三维景观指数对地表温度的影响,例如,建筑物高度对地表温度的贡献随高度增加先升高后降低,并在30m左右呈现平稳状态;文献[11]将SHAP用于互联网金融场景中,解释了各指标对贷前逾期识别的影响大小和方向等,可见SHAP框架具有强大的可解释性。随机森林是一种集成学习算法,相较于单一算法具有更高的准确性,对数据集的适应能力强,并且具有良好的抗噪能力和优越的性能,已被应用于人口经济、空气污染等多个领域中,如文献[12]基于随机森林算法对上海市PM2.5浓度评估,文献[13]等基于随机森林模型研究了西藏人口分布格局并分析了其影响因素等。
本文分析了京津冀地区能见度在日、周、月3个尺度的时序变化规律;建立基于气象因子和污染因子的能见度随机森林估算模型,分析影响因素对能见度的总体解释度;将SHAP解释框架引入能见度影响因素贡献分析中,揭示各影响因素在不同值域区间内对能见度的贡献方向和程度。
1研究区域概况与数据
1.1研究区域概况
本文研究区域为京津冀地区,该地区位于华北地区,包括北京市、天津市以及河北省的石家庄、张家口、承德、保定、秦皇岛、唐山、廊坊、沧州、衡水、邢台和邯郸13个主要城市,占地面积约为2.18×105km2,人口总数约1.127亿(2018年),2019年地区生产总值合计约8.46万亿元,约占全国的8.5%。京津冀是我国的政治、文化中心和经济发展核心区域,其大气污染问题由来已久,且进入21世纪后呈现爆发式增长[14],因此,研究京津冀能见度对了解城市空气质量具有重要意义。
1.2数据来源及预处理
本文选取京津冀主要城市2019年1月1日至12月31日逐时的气象监测站点数据和同期的空气质量监测站点数据为原始数据,其中气象数据来自中国气象数据网(http:∥data.cma.cn/),选取京津冀区域的171个气象监测站点的逐时监测数据, 包括降水量(precipitation,Prcp)、气压(barometricpressure,BP)、相对湿度(relativehumidity,RH)、气温(temperature,Tem)、风速(windspeed,WS)以及水平能见度(visibility,Vis)(人工)等指标.
空气质量数据来自中国环境监测总站全国城市空气质量实时发布平台(http:∥www.cnemc.cn/),收集京津冀区域的79个站点逐时监测数据,包括PM2.5、PM10、SO2、NO2、O3和CO等指标,其中CO的单位为mg/m3,其他指标的单位均为μ/m3。本研究对数据进行清洗,删除原始数据中整体漏测的数据,并采用均值法,即上下时刻的均值对其他缺失值填充;将各城市区域所包含所有站点某指标监测值的日均值作为该区域的该指标数值,按城市区域合并气象数据和空气质量数据,完成数据集的构建。
2研究方法
2.1随机森林算法
随机森林(randomforest,RF),是一种基于决策树的机器学习方法,最早由LeoBreiman等人提出[15]。基于Bootstrap抽样从训练样本集中随机有放回的抽取样本;针对每个样本集分别建立决策树模型,并在分裂过程中,随机选择部分属性,择优分裂;多个决策树组成随机森林,新样本的值则由多棵树的投票结果或均值决定[16-17]。随机森林的双重随机性,决定了其具有效率高、性能强等特点,同时也不易出现过拟合现象。根据前人研究情况可知,气象因子和空气污染物因子为能见度最主要的影响因素[3-9,13-14],综合考虑数据的科学性及可获取性.
本文选取PM2.5、SO2、NO2、O3和CO等空气污染物因子以及相对湿度、风速等气象因子作为输入变量,以能见度作为输出变量,构建随机森林估算模型,由于PM10与PM2.5相关性过高,会造成信息冗余,进而影响实验效果[18],因此未将PM10作为模型输入变量。为了保证模型精度,分别运用学习曲线法调整基评估器的数量,以及网格搜索法调整树的节点分枝最小样本数、叶子节点最小样本数、决策树最大深度、分枝时最大特征个数以及不纯度衡量指标等重要参数;为了方便检验模型的性能,将数据集的80%作为训练集,20%作为测试集,基于训练集训练模型,再通过测试集检验拟合效果。
2.2能见度影响因子解释模型
SHAP框架是一种经典的事后解释框架,将博弈论思想和局部解释相结合,通过计算每个样本每个特征变量的重要性值而达到解释效果,在SHAP框架中,该值被称为SHAPvalue,是样本中每个特征所分配到的数值,也可直观地认为是每个特征的贡献值[19]。
3实验结果与分析
3.1能见度时序变化特征
为了全面分析京津冀地区能见度情况,分别从日、周、月3个尺度分析其时序变化规律。纵观不同尺度时序变化图,京津冀能见度变化趋势相近,其中北京能见度状况最优、天津次之,河北最差。一天当中,早上7时之前,能见度略微下降趋势,8时之后,能见度开始提升,一直到15时达到峰值,之后开始回落,夜间能见度较低。原因是早高峰时期,人流量、车流量较为集中,导致空气中污染物浓度增加,从而降低了能见度。
随后人车流量减少,同时太阳升起,温度回升,空气中湿度降低,能见度回升,午后到达峰值,之后晚高峰到来,能见度开始下降,到了晚上,由于大气逆温,污染物不易扩散,导致能见度较低;从周尺度来看,京津冀的工作日和非工作日能见度区别并不大,可能是因为双休日出游多的原因,人和车流量并没有明显差别,所以能见度也没有明显变化[24];冬季能见度最差,到春季有所回暖,春、夏两季能见度整体状况较好,到秋季又呈现下降趋势,说明能见度与气候和天气密切相关[25]。
具体来说,一年之中,3月、5月、8月和9月是能见度状况最好的,而7月份有所下降,可能是2019年7月份阴雨天气较多的缘故,导致能见度状况整体不佳,12月份天津和河北的能见度较上个月有所下降,而北京却有所提升,通常来说,由于天气和供暖等原因,冬天能见度低是正常的,而北京有所回升,可能跟北京空气污染管理和防治有关。总之,京津冀地域能见度在日和月尺度上存在明显的时序特征,周际特征不明显。由于地域相近等原因,能见度整体变化趋势也大致相同,北京的能见度状况最好,应是近几年北京大气污染治理力度加大所致,北京能见度状况随之有所改善。
3.2随机森林模型估算结果分析
基于随机森林算法,选取京津冀各城市2019年1月1日至12月31日的风速、相对湿度、气压、温度、降水量以及PM2.5、SO2、NO2、O3和CO的日均值作为输入,同时间节点能见度日均值作为输出,并将数据的80%作为训练集,20%作为测试集构建模型。运用学习曲线法调整基评估器的数量,调整为163个,运用网格搜索法调整树的节点分枝最小样本数、叶子节点最小样本数、决策树最大深度、分枝时最大特征个数以及不纯度衡量指标等参数,结果分别为2、3、10、6,衡量分枝质量指标为“均方误差(MSE)”。
基于以上参数,将测试集特征参数代入模型,得出能见度估算结果,其中横轴是能见度的实测值,纵轴为能见度的估算值,红色直线是拟合线,虽然有少数点偏离拟合线较远,但整体拟合情况良好。解释方差(explainedvariance)以及拟合系数R2是评价模型拟合效果以及模型可解释程度的重要指标,两者的取值范围都是[0,1],越接近1说明回归效果越好,可解释度越高,为了判断所选因子对能见度整体解释度。
3.3基于SHAP框架的特征贡献分析
可清晰地反映各影响要素的SHAP值如何对能见度进行解释,以其中一个样本为例。基于随机森林模型得出基线值为14689.99m,以该值为基础,每个特征根据自己的SHAP值推动最终结果,推高最终值的要素用红色表示,如风速和NO2等,降低最终值的要素用蓝色表示,如PM2.5和CO等。在所有要素SHAP值共同作用下,得出该样本能见度最终估计值为12322.07m。
总体上看,空气污染物中PM2.5、CO、SO2浓度以及相对湿度SHAP值是主要呈单调递减,对能见度呈负向影响;NO2的SHAP值则是曲折向下,与能见度负向相关;风速SHAP值主要呈单调递增,对能见度呈正向相关;而气温SHAP值曲折上升、气压SHAP阶段式下降、降雨量SHAP值呈散点式下降,规律性较弱。
总的来说,单样本SHAP值可解释各特征对每个样本能见度估计值的影响,平均SHAP值绝对值和可反映各特征的总体重要性和贡献度,特征摘要图可分析各因子的贡献方向,特征SHAP依赖图可显示各特征变量在不同区间对能见度的具体贡献情况。相较于传统机器学习模型的可解释性,本研究所提结合随机森林和SHAP框架的解释模型不仅能反映影响因子贡献度的大小和方向,而且能清晰地揭示特征变量的确切贡献模式,提升了特征贡献分析的精细度和准确性,具有更好的解释效果。
气象评职知识:气象人员可以评什么职称
4结束语
本文基于京津冀气象监测数据和空气质量监测数据,分析了大气能见度的日、周、月变化特征,揭示京津冀能见度时序变化规律;然后选取气象因子和空气污染物因子为特征变量,利用随机森林算法构建了能见度估算模型并分析了整体解释度;最后创新性地引入SHAP解释模型,基于每个特征变量的SHAPValue的变化分析了各影响因子对能见度贡献度大小、方向,以及单个变量对结果详细的贡献情况,提升了特征解释效果。后续的研究会继续探索长时间序列能见度及影响因素的年际变化情况,考虑到城、郊区人口、经济、建设等状况不同会造成同一影响因素的贡献情况存在区间差异,故后续研究将探索能见度影响因素在不同区域对能见度的贡献差异。
参考文献
[1]马佳,于兴娜,安俊琳,等.南京北郊冬春季大气能见度影响因子贡献研究[J].环境科学,2016,37(1):41-50.(MAJia,YUXingna,ANJunlin,etal.ContributionsoffactorsthatinfluencedthevisibilityinnorthsuburbofNanjinginwinterandspring[J].EnvironmentalScience,2016,37(1):41-50.)
[2]韩贵甫.雾霾天气形成的原因及治理对策[J].湖北农机化,2020(16):38-39.(HANGuifu.Causesoftheformationofhazeweatherandcountermeasures[J].HuBeiNongJiHua,2020(16):38-39.)
[3]郝巨飞,张功文,杨允凌.大气能见度及影响因子特征分析[J].干旱区资源与环境,2017,31(4):160-164.(HAOJufei,ZHANGGongwen,YANGYunling.Thecharacteristicsofatmosphericvisibilityandinfluencingfactors[J].JournalofAridLandResourcesandEnvironment,2017,31(4):160-164.)
[4]姜江,张国平,高金兵.北京大气能见度的主要影响因子[J].应用气象学报,2018,29(2):188-199.(JIANGJiang,ZHANGGuoping,GAOJinbing.MaininfluencingfactorsofvisibilityinBeijing[J].JournalofAppliedMeteorologicalScience,2018,29(2):188-199.)
作者:张杨1,张福浩1,陈才1,2,焦冠棋2,仇阿根1,3,欧尔格力3