基于多种机器学习模型的西北地区蒸散发模拟与趋势分析

2023-05-30季鹏袁星

大气科学学报 2023年1期

季鹏袁星

摘要基于机器学习方法和多源数据构建高精度蒸散发（Evapotranspiration，ET）产品对研究气候变化背景下干旱、半干旱地区陆地水循环变化具有重要意义。本文利用西北地区12个草地通量站点与卫星遥感产品，基于随机森林、极端梯度提升、支持向量回归和人工神经网络4种机器学习方法构建ET估算模型，制作5 km分辨率ET产品，并分析ET的长期变化趋势。交叉验证结果表明，4种模型的均方根误差都低于0 57 mm·d -1 ， R 2高达0 73～0 88。SHAP（SHapley Additive exPlanation）可解释性分析表明，4种模型均将净辐射、植被和土壤湿度作为ET估算的重要因子，也能刻画出土壤偏干时土壤水分对ET的限制作用，有较好的物理解释性。多模型集合的ET结果相比单一机器学习模型以及现有遥感产品误差分别降低7％～20％和45％～70％。趋势分析结果显示，西北地区非裸地下垫面在2001—2018年间整体呈现ET增加趋势，平均速率为19 mm／（10 a）。在河套平原和内蒙古中部和东北部地区，ET的增长速率超过降水，这可能会进一步加剧这些地区的干旱化。

关键词西北地区; 蒸散发; 机器学习; 可解释性; 趋势分析

陆面蒸散发包含地表蒸发和植被蒸腾，其中植被蒸腾占比近50％～80％（Coenders-Gerrits et al.，2014;Good et al.，2015）。陆面蒸散发是地面和大气间水分、能量交换的主要载体（Wang and Dickinson，2012;李放和沈彦俊，2014;陈镜明等，2020），也是陆气相互作用的重要环节（Koster et al.，2004;Seneviratne et al.，2010）。据统计，近2／3的全球陆地降水将以蒸散发的形式回到大气中，并在此过程中消耗陆地吸收的近一半太阳辐射能量（Chahine，1992;Oki and Kanae，2006）。受气候变化和植被变化影响，全球陆面蒸散发呈现增加趋势（张霞等，2017;Zhang et al.，2019）。在生态脆弱、水资源匮乏的干旱、半干旱地区，增强的陆面蒸散发与干旱化过程密切相关（马柱国，2005;Huang et al.，2016，2017）。准确估计干旱、半干旱区的陆面蒸散发对于研究全球增暖影响下该地区水资源变化、水文与农业干旱风险以及生态安全风险具有重要意义（黄建平等，2013;Huang et al.，2016;杨扬等，2020）。

相比传统参数化方案，机器学习模型能够在无先验条件下自主完成数据之间隐藏关系的建立，对于具有强非线性关系的复杂系统有更高模拟精度（Reichstein et al.，2019;贺圣平等，2021）。随着机器学习方法的迅猛发展以及站点观测数据的不断丰富，近年来机器学习方法开始被运用到陆面蒸散发的建模中，并得到比传统模型更好的效果（Tramontana et al.，2016;Granata，2019;Jung et al.，2019;Hu et al.，2021）。Jung et al.（2019）基于全球FLUXNET通量站点观测，结合随机森林、人工神经网络、支持向量回归等机器学习模型，训练并生成了FLUXCOM潜热（蒸散发）集合产品。Hu et al.（2021）对比了机器学习方法和地表能量平衡（Surface Energy Balance System，SEBS）物理模型发现，机器学习模型的蒸散发模拟误差仅为物理模型的1／4。针对干旱、半干旱地区的机器学习蒸散发模型也有了部分工作。例如，Fang et al.（2020）利用支持向量回归方法构建华北平原旱地作物的蒸散发估算模型。Zhang et al.（2021）基于随机森林构建了我国西北干旱、半干旱区草地下垫面的蒸散发估算模型，均得到良好的模拟效果。然而，不同机器学习模型对干旱、半干旱區蒸散发的模拟精度以及泛化能力是否存在显著区别仍未得到系统性对比研究。

此外，机器学习结果的可解释性也备受关注（Granata，2019;Reichstein et al.，2019;Hu et al.，2021）。例如，Zhang et al.（2021）结合排列重要性（Permutaion Importance;PI）方法指出气温、降水、辐射、植被以及土壤温湿度是模型中的重要预测因子（predictor variables）。Granata（2019）将不同预测因子移除机器学习模型（该方法也称为Drop Column Importance;DCI），发现有无辐射、显热通量等预测因子直接影响了机器学习模型的精度，而风速因子的加入与否对结果影响不大。然而，PI和DCI仅给出不同因子在整体特征上的重要性，无法直观表明各因子对预测个体的贡献（例如，无法说明净辐射或者土壤湿度对蒸散发模拟值是正或者负贡献）。相比而言，SHapley Additive exPlanation（SHAP）可解释性方法能给出个体特征，并考虑了预测因子之间的协同影响（Lundberg and Lee，2017）。Hu et al.（2021）利用SHAP方法探究了三种机器学习方法的可解释性，发现不同模型对叶面积指数（Leaf Area Index，LAI）的敏感度和响应方式均不同，深度学习网络和随机森林模型中蒸散发与LAI呈现正相关，而符号回归方法则呈现微弱的负相关。然而，不同机器学习模型在估算干旱、半干旱区蒸散发时是否有一致的物理解释性，各模型能否合理描述干旱、半干旱区水分对蒸散发的限制作用需要进一步探讨。

综上所述，不同机器学习方法在估算干旱、半干旱区蒸散发中的适用性、泛化能力以及可解释性需要进一步分析。针对此，本文利用我国西北地区12个通量站点的长时段观测数据，基于随机森林（Random Forest，RF）、极端梯度提升（eXtreme Gradient Boosting，XGB）、支持向量回归（Support Vector Regression，SVR）和人工神经网络（Artificial Neural Network，ANN）构建了4组蒸散发估算模型;采用随机交叉验证（Random Cross-Validation，RCV）和空间交叉验证（Spatial Cross-Validation，SCV）对模型的鲁棒性和泛化能力进行检验;结合SHAP可解释性方法探讨不同机器学习模型的物理可解释性，重点关注不同模型对预测因子与蒸散发之间物理关系的描述;进一步基于构建的蒸散发模型和多源观测数据生成西北地区5 km分辨率格点蒸散发产品，分析蒸散发的长期变化趋势和空间分异性。

1 资料和方法

1 1 研究区域与观测数据

本文蒸散发指冠层向上的总蒸散发（ET），其计算公式如下：

ET= E s+ T c。

其中： T c表示冠层蒸腾； E s表示土壤蒸发。

根据联合国环境规划署定义，干燥指数（AI，Aridity Index）在0 05～0 5的区域为干旱、半干旱区。具体的，AI<0 03表示极端干旱，0 03≤AI<0 2表示干旱区，0 2≤AI<0 5表示半干旱区。本文主要关注我国西北（包括内蒙古）干旱、半干旱地区（图1a）。选取由国家青藏高原科学数据中心、FLUXNET2015（Pastorello et al.，2020）以及中国陆地生态系统通量观测研究网络（ChinaFLUX;Yu et al.，2006）提供的12个通量站点观测（图1b），具体站点信息和观测时长见表1。原始数据频次为半小时、小时或者日，均处理到日尺度。

参考前人的相关工作（Tramontana et al.，2016;Jung et al.，2019），本文选取MODIS（Moderate-resolution Imaging Spectroradiometer）卫星遥感产品作为部分预测因子，包括增强植被指数（Enhanced Vegetation Index，EVI）、归一化植被指数（Normalized Difference Vegetation Index，NDVI）、植被有效光合辐射吸收比例（Fraction Absorbed Photosynthetically Active Radiation，FAPAR）、植被叶面积指数（LAI）、白天（Land Surface Temperature at Daytime，LST_D）和夜间（Land Surface Temperature at Nighttime，LST_N）地表温度、以及MCD43A4地表反射率资料。MODIS数据原始空间分辨率为200 m～1 km，时间分辨率为1～16 d。利用站点周围3 km×3 km区域的网格平均值来减少地理定位误差（Xiao et al.，2008），并采用保形分段三次样条插值方法将MODIS观测序列插值至日尺度。 MCD43A4地表反射率资料用于计算归一化水体指数（Gao，1996）和地表水分指数（Xiao et al.，2002）。

格点蒸散发产品的计算主要基于遥感和气象再分析格点产品（表2），包括0 1°分辨率的中国气象驱动数据（China Meteorological Forcing Dataset，CMFD）（He et al.，2020）、中国地区1 km分辨率土壤湿度产品（China Soil Moisture dataset，CSM）（Li et al.，2022）、全球陆表特征参量（Global Land Surface Satellite，GLASS）0 05°G数据产品（Liang et al.，2021）、以及0 05°MODIS格点产品。此外，包括FLUXCOM提供的0 008 3°分辨率FLUXCOM-RS和0 5°分辨率FLUXCOM-RS+METEO（Jung et al.，2019）、GLEAM提供的0 25°分辨率GLEAMv3 6b和GLEAMv3 6a、以及GLASS提供的0 05°分辨率GLASS-ETv4 2（Liang et al.，2021）蒸散发产品被用来與本研究的产品进行相互印证。其中，FLUXCOM-RS和GLEAMv3 6b仅依赖于遥感数据，而FLUXCOM-RS+METEO和GLEAMv3 6a用到了气象再分析数据。

1 2 机器学习模型构建与验证方法

根据Tramontana et al.（2016）、Jung et al.（2019）以及Zhang et al.（2021）的工作，本文采用净辐射、日平均气温、日平均湿度等19个环境要素作为机器学习模型的预测因子（详见表2）。去除缺测数据后，共有12 600多组有效观测。随机交叉验证（Random Cross Validation，RCV）是指从每个站点中随机挑选90％的数据用于模型训练，10％的数据用于模型测试。本研究进行了10次RCV，每次选择数据均为随机抽取，利用10次评估参数的平均值和标准差判断模型鲁棒性。空间交叉验证（Spatial Cross Validation，SCV）是指每次排除部分站点，利用其他站点数据训练的模型对该站点进行测试，从而体现机器学习的泛化能力（Zhang et al.，2021）。本研究共进行了12次SCV，每次排除一个站点。

采用Python中的网格搜索和交叉验证函数包（GridSearchCV）率定RF、XGB和SVR模型中的部分超参数（表3）。ANN模型共4层，每层神经元的个数分别是200、100、50和1。此外，通过在第1和第2层之间建立神经元丢弃层（丢弃概率为20％）以及在第二层增加正则化（正则化权重为0 01）的方式，防止ANN模型出现过拟合。该ANN模型的收敛速度较快，在40～50次迭代时已基本收敛，因此模型最终的迭代次数设置为100。

采用Kling-Gupta系数（KGE;Gupta et al.，2009）、解释方差（ R 2）、均方根误差（RMSE）和偏差（BIAS）来验证模拟精度，其计算公式如下：

R 2=1- ∑ n i=1 （y s ，i -y o ，i ） 2 ∑ n i=1 （y o ，i - y o ，i ） 2 ，

RMSE = 1 n ∑ n i=1 （y s ，i -y o ，i ） 2 ，

BIAS = y s - y o ，

KGE =1- （ CC -1） 2+ y s y o -1 2+ σ s σ o -1 2 。

其中： y o ，i 和y s ，i 分别表示观测和模拟中第i天的蒸散发;n表示总样本数;上横线表示时间平均; CC 表示相关系数; σ o和 σ s分别表示观测和模拟结果的标准差;KGE是对相关、均值和变率的综合性衡量指标，KGE的范围是负无穷到1，越接近1表明模拟效果越好。

1 3 SHAP可解释性方法

SHAP方法是利用博弈论解释机器学习模型的方法（Lundberg and Lee，2017），其可以量化某个输入要素对模型预测效果的具体贡献。SHAP利用加法性归因方法量化某一预测因子对结果的可解释性：

f（x）=g（x′）= 0+∑ M i=1 ix′。

其中： f（x）为原始模型;g（x′）为拥有简单输入（ x′;x′ ∈｛0，1｝ M）的解释性模型，而x与x′则通过映射方程x=h x（x′）相聯系;M表示输入要素（或预测因子）的数目; i表示第i个要素的特征归因函数。解释性模型g（x′）拥有唯一解：

i（f，x）= ∑ z′ x′ |z′|！（M-|z′|-1）！ M！［f x（z′）- f x（z′＼i）］。

其中： |z′|表示z′中非零值的数目;f（x′）=f（h x（z′））=E［f（z）|z s］;s表示z′中非零值索引的集合。

2 主要结果

2 1 不同模型的模拟性能和泛化能力

表4给出不同机器学习模型完成10次RCV和12次SCV后的评估参数，而图2给出了RCV和SCV试验在测试集上的验证效果。当所有站点均有部分数据参与训练时（对应RCV试验），XGB模型的精度最高，KGE和 R 2高达0 92和0 88，均方根误差最低（0 45 mm·d -1 ），基本无偏差。RF模型效果略低于XGB模型，KGE和 R 2为0 88和0 87，均方根误差为0 49 mm·d -1 。虽然XGB和RF模型均是依赖于决策树的集成学习方法，但是RF模型中每颗决策树之间相互独立，而XGB会基于当前决策树中的错误来优化产生新决策树，这可能导致XGB相比RF模型拥有更好的效果。SVR和ANN模型的模拟精度相当，两者的KGE和 R 2均在0 85和0 81左右，ANN模型的误差稍大于SVR。相比图2a、2b，图2c、2d中的散点分布更宽，表明SVR和ANN模型易出现高估或者低估蒸散发的情况。表4也说明，ANN和SVR模型的偏差大于RF和XGB模型。可能的原因是，XGB和RF模型中的集成学习理念使得不同决策树之间的偏差可能存在相互抵消，最终减小集成结果的偏差。另外，对于所有模型而言，除偏差外的其他参数都拥有远小于均值的均方根误差，表明模型对于训练和测试数据的选取不敏感、模型鲁棒性强。

Zhang et al.（2021）指出，RF模型在SCV中的模拟精度相比在RCV中会降低。本研究发现，除RF外，XGB、SVR和ANN模型均存在类似的情况。不难理解，当某一站点的观测不参与训练时，该站点蒸散发与预测因子间的特征关系无法被模型直接学习，从而导致误差增加，KGE和 R 2下降的情况。此外，需要注意的是，从RCV到SCV，SVR和ANN模型各项评估参数的退化程度（例如，KGE和 R 2降低、RMSE增加）要小于RF和XGB，这说明SVR和ANN模型拥有更强的泛化能力。然而，虽然各模型的评估指标有所下降，但各项指标的下降幅度在可接受范围内，且均方根误差和 R 2仍然优于基于物理模型的再分析资料以及遥感反演产品（Zhang et al.，2019;Niu et al.，2020）。总体而言，4种机器学习模型在SCV中的表现相当。

图3进一步给出了不同站点观测和模型估算的蒸散发季节分布，其中模型估算结果均来自SCV试验（即站点数据均未参与模型训练），月尺度结果由日尺度平均得到。总体而言，各模型均能很好模拟出蒸散发的季节循环，平均RMSE为0 27～0 31 mm·d -1 。然而，没有一种模型能够在每个站点都拥有最好的模拟效果。例如，XGB模型很好模拟出DL站点的蒸散发且误差仅为0 1 mm·d -1 ，但却未能模拟出HB站点蒸散发在7月的峰值且误差相比其他模型高了近80％。ANN模型在HB_W和SIZW站点有最低的模拟误差，但是在HB站点却存在显著负偏差。将4种模型估算结果进行简单算数平均得到的集合平均结果相比单一模型在均方根误差方面降低了7％～20％。因此，采用多机器学习模型的集合平均估算干旱、半干旱地区蒸散发相比仅采用单一模型更有优势。

2 2 不同模型的可解释性分析

图4给出了4种机器学习模型的SHAP可解释性汇总，其中横轴为SHAP值，纵轴的预测因子按照解释性大小从上到下依次排列，每个点的颜色代表预测因子的数值大小。例如，图4a表明净辐射是RF模型估算蒸散发时给予权重最大的因子，且净辐射的高值（红色）对应正的SHAP值，净辐射低值（蓝色）对应负的SHAP值，即RF模型中净辐射增加有利于蒸散发增加。总体而言，4种机器学习模型一致地将净辐射作为最重要的因子，且都显示净辐射与蒸散发的正相关关系。Hu et al.（2021）针对FLUXNET2015的部分站点（包括森林、草地、作物等），对比了RF、符号回归模型和深度学习模型的可解释性，也得到了类似的结论。此外，与植被冠层结构密切相关的EVI指数、对叶绿素敏感的NDVI指数以及表征土壤干湿情况的土壤湿度（SWC）在4种模型中都拥有较高权重，且均与蒸散发呈正相关关系，这表明4种机器学习模型均能够正确捕捉到干旱、半干旱地区能量、水分和植被对蒸散发的影响。然而，不同模型对于植被和土壤湿度因子的重要性排列依旧存在区别。例如，土壤湿度在RF、XGB和ANN模型中的重要性仅次于植被指数或者土壤温度，而在SVR模型中则排在气温、LAI、NDVI、EVI以及短波辐射之后。4种模型对于其他预测因子重要性分配的差别更大。例如，2 m气温在RF、XGB和ANN模型中的重要性远小于在SVR模型中。

图5进一步给出净辐射的SHAP值和净辐射大小以及土壤湿度之间的关系，选取观测时长最大的AROU和NMG站分别代表高寒草甸和温性草原。对于AROU站点，当土壤偏干时（SWC<0 15 m 3·m -3 ，图5中蓝色点），净辐射的影响（|SHARP|）较弱，且净辐射从0增加到100 W·m -2 时SHAP值的变化很平缓。这说明低土壤湿度限制了净辐射对蒸散发的影响（Seneviratne et al.，2010）。当土壤相对湿润时（SWC>0 25 m 3·m -3 ，图5中红色点），净辐射的影响相比土壤干燥时增强，且SHAP值随着净辐射增加的速率远大于土壤干燥时期。XGB、SVR和ANN与RF类似，但SVR和ANN中低土壤湿度对净辐射贡献的限制强度不及RF和XGB。在NMG站，土壤湿度对净辐射SHAP值的影响结果与AROU站类似。即，当土壤湿度偏低时（SWC<0 10 m 3·m -3 ），净辐射的SHAP值偏小且基本不随净辐射增加而增加。其他站点的结果类似（图略）。上述SHAP可解释性分析表明，4种机器学习模型能够合理描述土壤偏干时土壤水分对蒸散发的限制作用。

2 3 5 km分辨率格点蒸散发数据构建及蒸散发趋势

利用上述4种机器学习方法，结合MODIS格点产品、CMFD格点气象資料以及GLASS净辐射等产品（表2），构建了西北地区5 km分辨率2001—2018年的多模型集合蒸散发产品（简称ML-ENS）。由于本研究所用通量观测站点主要是草地下垫面，训练的机器学习模型对于裸地和沙漠下垫面是否有较好的泛化能力仍需进一步探讨，故对裸地和沙漠格点进行了掩码，这在FLUXCOM等蒸散发产品的制作中也有应用（Jung et al.，2019;Niu et al.，2020）。图6对比了ML-ENS和其他高分辨率产品对不同站点ET季节循环的模拟效果。相比其他产品（除FLUXCOM-RS外），ML-ENS没有显著低估高寒草甸下垫面的蒸散发。与本研究类似，FLUXCOM-RS也是基于遥感和机器学习模型的蒸散发产品，观测信息的融入可能是它优于GLEAMv3 6和GLASS-ETv4 2产品的原因。相比FLUXCOM-RS，ML-ENS在温性草地（NMG，SIZW和YAK）以及HB_W、DL_D和HB等高寒草甸站点依旧有显著优势。综合而言，ML-ENS中蒸散发季节循环与观测间的均方根误差为0 19 mm·d -1 ，而其他产品则为0 35～0 63 mm·d -1 ，ML-ENS误差相比其他产品下降了45％～70％。

图7进一步给出2001—2018年西北地区非裸地下垫面的降水、蒸散发以及降水减蒸散发的趋势分布。总体而言，除了新疆和青海西南部地区外，其他地区都呈现降水增加特征，特别是内蒙古东北部、河套平原和青海东部地区。与降水不同的是，蒸散发整体呈现增加的趋势，平均速率为19 mm／（10 a）。在降水显著增加的河套地区和内蒙古东北部，蒸散发的趋势可达60 mm／（10 a）。GLASS-ETv4 2以及GLEAM蒸散发产品也呈现与ML-ENS产品类似的蒸散发变化特征（图略），区域平均蒸散发趋势分别为22 mm／（10 a）和36 mm／（10 a）。需要注意的是，新疆地区蒸散发增加的区域与灌区高度吻合（Xiang et al.，2020）。进一步对土壤湿度、净辐射和植被指数分析发现，这些灌区的EVI、NDVI以及净辐射均呈现增加趋势（图略），加上较高的土壤湿度（灌溉导致），导致ET整体呈现增加趋势。图7c表明，强烈的蒸散发增加会超过降水的增加，从而使得河套地区、内蒙古中部和北部部分地区PTOT-ET呈现下降趋势，从而加剧这些地区从半干旱地区向干旱区转换（Huang et al.，2016）。此外，新疆大部分非裸地下垫面的PTOT-ET均呈现下降趋势，这主要是由降水下降（在天山地区，包括伊犁河谷等，图7a）、和蒸散发增加（在新疆北部，图7b）共同造成，表明该地区的干旱化风险要大于其他地区。

3 结论

利用机器学习模型估算陆面蒸散发是近年来的热点问题，然而不同机器学习方法对干旱、半干旱区的蒸散发模拟能力如何、泛化能力是否存在显著差别以及模型可解释性等问题均有待深入研究。基于此，本文以我国西北地区为例，通过12个通量站点的多年观测数据训练4种机器学习模型，采用随机交叉验证、空间交叉验证和SHAP可解性方法检验模型模拟效果与可解释性;利用具有较好物理可解释性的机器学习模型，结合遥感与格点气象再分析资料生成一套5 km分辨率、2001—2018年蒸散发产品，对蒸散发的长期趋势进行了分析，得到如下主要结论：

1）RF、XGB、SVR和ANN模型均能很好估算西北地区草地下垫面的日尺度蒸散发，且均具有较好的鲁棒性和泛化能力。基于集成学习理念的RF和XGB模型在随机交叉验证中偏差接近0，从而拥有比SVR和ANN模型更小的均方根误差。然而，当站点数据未参与训练时，4种模型的效果相当， KGE在0 76～0 79，均方根误差低于0 57 mm·d -1 。没有一种模型在所有站点都拥有最好的模拟效果。相比单一模型，4种模型的集合平均使得蒸散发的季节循环估算误差降低7％～20％。

2）虽然在具体权重大小上存在差异，4种机器学习方法均将净辐射作为估算蒸散发的首要因子，同时也都给予植被参数（EVI或NDVI）以及土壤湿度较大的权重，均能合理捕捉干旱、半干旱地区能量、水分和植被对蒸散发的影响。另外，4种机器学习模型能够合理描述土壤偏干时土壤水分对蒸散发的限制作用。

3）基于4种机器学习模型集合平均的格点蒸散发产品（ML-ENS）相比FLUXCOM、GLEAM和GLASS蒸散发产品误差降低45％～70％。基于ML-ENS产品的趋势分析表明，西北地区（裸地和沙漠除外）在2001—2018年呈现出蒸散发增加的趋势，且河套、内蒙古中部和东北部地区蒸散发的增加将抵消降水增加的增湿效应，从而进一步增加干旱化风险。

参考文献（References）

Chah ine M T，1992.The hydrological cycle and its influence on climate［J］.Nature，359（6394）：373-380.doi：10 1038／359373a0.

陈镜明，柳竞先，罗翔中，2020.基于碳水通量耦合原理改进Penman-Monteith蒸散发模型［J］.大气科学学报，43（1）：59-75. Chen J M，Liu J X，Luo X Z，2020.Improving the Penman-Monteith evapotranspiration model based on the coupling principle of carbon and water fluxes［J］.Trans Atmos Sci，43（1）：59-75.（in chinese）.

Coenders-Gerrits A J，van der Ent R J，Bogaard T A，et al.，2014.Uncertainties in transpiration estimates［J］.Nature，506（7487）：1-2.doi：10 1038／nature12925.

Fang B J，Lei H M，Zhang Y C，et al.，2020.Spatio-temporal patterns of evapotranspiration based on upscaling eddy covariance measurements in the dryland of the North China Plain［J］.Agric For Meteorol，281：107844.doi：10 1016／j.agrformet.2019 107844.

Gao B C，1996.NDWI—a normalized difference water index for remote sensing of vegetation liquid water from space［J］.Remote Sens Environ，58（3）：257-266.doi：10 1016／S0034-4257（96）00067-3.

Good S P，Noone D，Bowen G，2015.Hydrologic connectivity constrains partitioning of global terrestrial water fluxes［J］.Science，349（6244）：175-177.doi：10 1126／science.aaa5931.

Granata F，2019.Evapotranspiration evaluation models based on machine learning algorithms—a comparative study［J］.Agric Water Manag，217：303-315.doi：10 1016／j.agwat.2019 03 015.

Gupta H V，Kling H，Yilmaz K K，et al.，2009.Decomposition of the mean squared error and NSE performance criteria：implications for improving hydrological modelling［J］.J Hydrol，377（1／2）：80-91.doi：10 1016／j.jhydrol.2009 08 003.

He J，Yang K，Tang W J，et al.，2020.The first high-resolution meteorological forcing dataset for land process studies over China［J］.Sci Data，7（1）：25.doi：10 1038／s41597-020-0369-y.

賀圣平，王会军，李华，等，2021.机器学习的原理及其在气候预测中的潜在应用［J］.大气科学学报，44（1）：26-38. He S P，Wang H J，Li H，et al.，2021.Machine learning and its potential application to climate prediction［J］.Trans Atmos Sci，44（1）：26-38.（in chinese）.

Hu X L，Shi L S，Lin G，et al.，2021.Comparison of physical-based，data-driven and hybrid modeling approaches for evapotranspiration estimation［J］.J Hydrol，601：126592.doi：10 1016／j.jhydrol.2021 126592.

黄建平，季明霞，刘玉芝，等，2013.干旱半干旱区气候变化研究综述［J］.气候变化研究进展，9（1）：9-14. Huang J P，Ji M X，Liu Y Z，et al.，2013.An overview of arid and semi-arid climate change［J］.Progressus Inquisitiones DE Mutat Clim，9（1）：9-14.doi：10 3969／j.issn.1673-1719 2013 01 002.（in Chinese）.

Huang J P，Yu H P，Guan X D，et al.，2016.Accelerated dryland expansion under climate change［J］.Nat Clim Chang，6（2）：166-171.doi：10 1038／nclimate2837.

Huang J P，Yu H P，Dai A G，et al.，2017.Drylands face potential threat under 2 ℃ global warming target［J］.Nat Clim Chang，7（6）：417-422.doi：10 1038／nclimate3275.

Jung M，Koirala S，Weber U，et al.，2019.The FLUXCOM ensemble of global land-atmosphere energy fluxes［J］.Sci Data，6（1）：74.doi：10 1038／s41597-019-0076-8.

Koster R D，Dirmeyer P A，Guo Z C，et al.，2004.Regions of strong coupling between soil moisture and precipitation［J］.Science，305（5687）：1138-1140.doi：10 1126／science.1100217.

李放，沈彥俊，2014.地表遥感蒸散发模型研究进展［J］.资源科学，36（7）：1478-1488. Li F，Shen Y J，2014.Progress in remote sensing-based models for surface heat and water fluxes［J］.Resour Sci，36（7）：1478-1488.（in Chinese）.

Li Q L，Shi G S，Shangguan W，et al.，2022.A 1 km daily soil moisture dataset over China using in situ measurement and machine learning［J］.Earth Syst Sci Data，14（12）：5267-5286.doi：10 5194／essd-14-5267-2022.

Liang S L，Cheng J，Jia K，et al.，2021.The global land surface satellite （GLASS） product suite［J］.Bull Am Meteor Soc，102（2）：E323-E337.doi：10 1175／bams-d-18-0341 1.

Lundberg S M，Lee S I，2017.A unified approach to interpreting model predictions［C］／／Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach，California，USA.New York：ACML：4768-4777.doi：10 5555／3295222 3295230.

马柱国，2005.我国北方干湿演变规律及其与区域增暖的可能联系［J］.地球物理学报，48（5）：1011-1018. Ma Z G，2005.Dry／wet variation and its relationship with regional warming in arid-regions of Northern China［J］.Chin J Geophys，48（5）：1011-1018.doi：10 3321／j.issn：0001-5733 2005 05 006.（in Chinese）.

Niu Z E，He H L，Zhu G F，et al.，2020.A spatial-temporal continuous dataset of the transpiration to evapotranspiration ratio in China from 1981—2015［J］.Sci Data，7（1）：369.doi：10 1038／s41597-020-00693-x.

Oki T，Kanae S，2006.Global hydrological cycles and world water resources［J］.Science，313（5790）：1068-1072.doi：10 1126／science.1128845.

Pastorello G，Trotta C，Canfora E，et al.，2020.The FLUXNET2015 dataset and the ONEFlux processing pipeline for eddy covariance data［J］.Sci Data，7（1）：225.doi：10 1038／s41597-020-0534-3.

Reichstein M，Camps-Valls G，Stevens B，et al.，2019.Deep learning and process understanding for data-driven Earth system science［J］.Nature，566（7743）：195-204.doi：10 1038／s41586-019-0912-1.

Seneviratne S I，Corti T，Davin E L，et al.，2010.Investigating soil moisture-climate interactions in a changing climate：a review［J］.Earth Sci Rev，99（3／4）：125-161.doi：10 1016／j.earscirev.2010 02 004.

Tramontana G，Jung M，Schwalm C R，et al.，2016.Predicting carbon dioxide and energy fluxes across global FLUXNET sites with regression algorithms［J］.Biogeosciences，13（14）：4291-4313.doi：10 5194／bg-13-4291-2016.

Wang K C，Dickinson R E，2012.A review of global terrestrial evapotranspiration：observation，modeling，climatology，and climatic variability［J］.Rev Geophys，50（2）.doi：10 1029／2011rg000373.

Xiang K L，Yuan W P，Wang L W，et al.，2020.An LSWI-based method for mapping irrigated areas in China using moderate-resolution satellite data［J］.Remote Sens，12（24）：4181.doi：10 3390／rs12244181.

Xiao J F，Zhuang Q L，Baldocchi D D，et al.，2008.Estimation of net ecosystem carbon exchange for the conterminous United States by combining MODIS and AmeriFlux data［J］.Agric For Meteor，148（11）：1827-1847.doi：10 1016／j.agrformet.2008 06 015.

Xiao X M，Boles S，Liu J Y，et al.，2002.Characterization of forest types in northeastern China，using multi-temporal SPOT-4 VEGETATION sensor data［J］.Remote Sens Environ，82（2／3）：335-348.doi：10 1016／S0034-4257（02）00051-2.

楊扬，孙旭映，张良，等，2020.利用“模拟-校正”法估算黄土高原半干旱区陆面蒸散发［J］.水土保持研究，27（2）：178-184. Yang Y，Sun X Y，Zhang L，et al.，2020.Estimation of terrestrial evapotranspiration of grassland in semi-arid region of the loess plateau by simulation-correction method［J］.Res Soil Water Conserv，27（2）：178-184.doi：10 13869／j.cnki.rswc.2020 02 026.（in Chinese）.

Yu G R，Wen X F，Sun X M，et al.，2006.Overview of ChinaFLUX and evaluation of its eddy covariance measurement［J］.Agric For Meteorol，137（3／4）：125-137.doi：10 1016／j.agrformet.2006 02 011.

Zhang C，Luo G，Hellwich O，et al.，2021.A framework for estimating actual evapotranspiration at weather stations without flux observations by combining data from MODIS and flux towers through a machine learning approach［J］.J Hydro，603：127047.

张霞，李明星，马柱国，2018.近30年全球干旱半干旱区的蒸散变化特征［J］.大气科学，42（2）：251-267. Zhang X，Li M X，Ma Z G，2018.Evapotranspiration variability over global arid and semi-arid regions from 1982 to 2011［J］.Chin J Atmos Sci，42（2）：251-267.doi：10 3878／j.issn.1006-9895 1709 16288.（in Chinese）.

Zhang Y Q，Kong D D，Gan R，et al.，2019.Coupled estimation of 500 m and 8-day resolution global evapotranspiration and gross primary production in 2002-2017［J］.Remote Sens Environ，222：165-182.doi：10 1016／j.rse.2018 12 031.

Modeling the evapotranspiration and its long-term trend over Northwest China using different machine learning models

JI Peng，YUAN Xing

Key Laboratory of Hydrometeorological Disaster Mechanism and Warning of Ministry of Water Resources／Collaborative Innovation Center on Forecast and Evaluation of Meteorological Disasters／School of Hydrology and Water Resources，Nanjing University of Information Science & Technology，Nanjing 210044，China

Using machine learning models （MLMs） to develop high-accuracy evapotranspiration （ET） products is important for investigating the terrestrial hydrological changes in arid and semi-arid regions in the context global warming.Based on the 12 flux stations in Northwest China and multi-source observation datasets，we present a 5-km gridded ET product based on 4 MLMs including the random forest，the extreme gradient boosting，the support vector regression，and the artificial neural network，and analyze the long-term ET trend over Northwest China.The cross-validation results show that all the four models can simulate the daily ET reasonably well，with the root-mean-square error （RMSE） smaller than 0 57 mm·d -1 and the R 2 up to 0 73～0 88.Moreover，the Sharply additive explanations （SHAP） method reveals that all the models treat the net radiation，vegetation indexes and soil moisture as the most important predictors and capture the limitation effect of soil water on ET reasonably well，indicating a good physical interpretability of the 4 MLMs.No model always has superiority，and the ensemble mean of the 4 models shows a 7％—20％ and 45％—70％ smaller RMSE than the individual member and other ET products.The ensemble ET shows an increasing trend over the Northwest China during 2001—2018，with a mean increase of 19 mm／（10 a）.In addition，the rate of growth of ET is greater than the rate of increase of precipitation in the Hetao region and the middle and northeastern parts of Inner Mongolia，suggesting an intensified drying trend in these regions.

Northwest China;evapotranspiration;machine learning models;generalization ability;trend analysis

doi：10 13878／j.cnki.dqkxxb.20221201014

（責任编辑：刘菲）