基于5种人工智能模型计算重庆地区参考作物蒸散量

2021-01-12鲍玲玲杨永刚刘建军张卫华

水土保持研究 2021年1期

鲍玲玲, 杨永刚, 刘建军, 张卫华

(1.重庆市水利电力建筑勘测设计研究院, 重庆 400020; 2.西南大学资源环境学院, 重庆 400715)

近年来，全球变暖逐渐加剧，洪灾、旱灾等极端气候事件不断发生，国内作物产量受频繁水旱灾害的严重影响[1-2]。为降低自然灾害对作物产量的影响，需要制定精确预测作物需水量的方法，及时为灌溉决策提供依据[3-4]。作物系数法是确定作物需水量的主要方法之一，通过计算作物系数Kc与参考作物蒸散量(Reference crop evapotranspiration,ET0)的乘积，最终确定作物需水量，该方法已在新疆[5]、河北等[6]地得到了证明。ET0的准确估算是精确获得作物需水量的关键，目前国际粮农组织FAO-56分册推荐Penman-Monteith(P-M)公式为计算的标准方法[7-8]，以辐射项和空气动力学项为基本原理，综合考虑了各种气象因素，保证了公式的计算精度，但该公式需要的气象资料较多，对于气象数据难以获得的区域难以使用，因此在一定程度上限制了P-M公式的应用[9-10]，找到合适的区域ET0简便估算方法成为了国内外研究的热点。

目前估算ET0的方法分为经验模型和人工智能模型2大类[11-12]，人工智能模型近几年得到了广泛的应用[13]。魏俊等[14]以极限学习机模型为基础，建立了西北地区ET0估算模型，精度高于Hargreaves-Samani，Chen，EI-Sebail和Bristow等经验模型；徐颖等[15]基于极限学习机模型，计算了西北旱区ET0，确定了最优激活函数及参数组合输入；冯禹等[16]基于遗传算法优化BP神经网络模型对川中丘陵区ET0进行了估算，模型精度明显高于Priestley-Taylor模型、Makkink模型、Hargreaves模型和Mc Cloud模型。在同样气象数据输入的前提下，人工智能模型精度均高于经验模型，但针对人工智能模型而言，在不同区域究竟采用何种气象数据输入方式的研究较少。本研究将5种气象数据进行排列组合，得出7种气象数据输入组合，分析不同组合下人工智能模型精度，对找到影响区域ET0关键因素，确定标准输入组合方式具有十分重要的意义，同时对人工智能模型在ET0估算中的应用推广十分必要。

作为国家重点生态功能区和农产品主产区，重庆受季风气候影响，降雨年际年内变化幅度大，春旱、秋旱频发，夏季受副热带高压控制，雨旱同期，农作物常常遭受着洪旱灾害的双重威胁，严重影响了作物产量，重庆是我国重要的粮食生产基地，针对ET0最优估算模型的研究可为当地作物需水量确定和灌溉决策确定提供重要的指导依据，因此是十分必要的[17]。同时现有对人工智能模型的选择较单一，未能对多种人工智能模型计算效果进行比较，由于不同人工智能模型在不同区域的精度不同，且所采用的最优气象数据输入组合同样不同，同时尚未发现针对重庆地区ET0估算模型的研究。因此，本文基于重庆地区丰都、奉节、沙坪坝、万州、酉阳共5个站点1991—2016年的逐日气象数据，以支持向量机模型(SVM)、高斯指数模型(GEM)、随机森林模型(RF)、极限学习机模型(ELM)和广义回归神经网络模型(GRNN)5种人工智能模型为基础，得出重庆地区不同气象参数输入组合ET0最优估算模型，为该地区灌溉决策制定提供依据。

1 研究方法

1.1 研究区概况及模型选择

重庆(105°17′—110°11′E，28°10′—32°13′N)地处长江上游，东临湖南，西邻四川，北接陕西，南到贵州，是西南地区重要的粮食生产基地。重庆为典型的亚热带季风气候，年平均气温16～18℃，降水丰富，年均降水量超过1 000 mm，年日照时数1 000～1 400 h，属于全国日照最低的地区之一。本文选择重庆地区丰都、奉节、沙坪坝、万州、酉阳共5个站点1991—2016年的逐日气象数据，数据均来自于国家气象中心，数据控制良好，气象资料主要包括站点日最高气温(Tmax)、最低气温(Tmin)、日照时数(n)、相对湿度(RH)和2 m处风速(U2)。具体站点分布图可见图1。

图1 重庆地区气象站点分布

为得出计算重庆地区的ET0标准人工智能模型，本文以P-M模型为计算标准，分别选择支持向量机模型、高斯指数模型、随机森林模型、极限学习机模型和广义回归神经网络模型共5种人工智能模型，其中支持向量机模型、随机森林模型、极限学习机模型和广义回归神经网络模型精度已在部分地区得到验证，但在重庆地区的精度仍未见研究报道，同时高斯指数模型尚未应用于国内ET0估算当中，因此本文基于这5种模型对重庆地区ET0进行模拟，可较好地适应人工智能模型预测研究的前沿方向。

1.2 Penman-Monteith公式

FAO-56分册推荐的Penman-Monteith(P-M)公式为ET0计算的标准模型，其模型型式及参数意义见文献[17]，具体公式如下：

(1)

式中:ET0是由P-M方法计算得到的参考作物蒸散量数值(mm/d),Rn是作物表面的净辐射[MJ/(m2·d)];T是2 m高处的日均气温(℃);G是土壤热量通量密度[MJ/(m2·d)];U2是2 m高处的风速(m/s)；es是饱和水汽压差(kPa)；ea是实际水汽压差(kPa);Δ是蒸汽压曲线的斜率(kPa/℃);γ是干湿计常数(kPa/℃)。

1.3 支持向量机模型

1999年Vapnik[18]首先提出了支持向量机模型(Support vector machine,SVM)。该模型以结构经验最小化代替传统的经验最小化，克服了神经网络的诸多不足，模型原理可用下式表示：

(2)

式中:xj,yi为输入向量的纵坐标;κ(xi,xj)是由输入向量xi转换而来的高维特征向量;αi为输入向量的权重;b为经验系数。

1.4 高斯指数模型

Liu等[19]提出了高斯指数模型(Gaussian exponential model,GEM)。该模型分为3个程序，首先，通过K-means算法对原始样本进行聚类学习。其次，基于最大似然估计进行参数估计，最后，根据最大后验概率标准重新组合学习样本。该模型可以定义为：

(i=1,2,…，n)

(3)

式中:Hi是峰值幅度;Ni是高峰时间位置;Wi是高斯波的半宽。

1.5 随机森林模型

随机森林(Random forest,RF)模型由Breiman提出。该模型在模型训练期间引入随机属性选择，该模型基于随机性和差异提取数据，可以大大提高决策的准确性[20]。

1.6 极限学习机模型

极限学习机模型(Extreme learning machine,ELM)是单隐层前馈神经网络学习算法，其学习速度比传统神经网络算法更快，主要包括输入层、隐含层和输出层3个部分，首先通过输入层输入所求变量，通过与隐含层之间的权重ωij，计算出输出层权重βjk和输出变量矩阵，得出最终结果[21]。

1.7 广义回归神经网络模型

广义回归神经网络模型(Generalized regression neural network,GRNN)由输入层、模式层、求和层和输出层等4层神经元组成[22]。

1.8 模型训练与模型精度验证

本文以5个气象站点1991—2016年逐日气象数据进行模型训练与预测，气象数据主要包括日最高气温(Tmax)、最低气温(Tmin)、日照时数(n)、相对湿度(RH)和2 m处风速(U2)，以1991—2011年的数据训练模型，以2012—2016年的数据验证模型精度，采用不同的气象参数输入组合，验证不同组合形式下不同模型的精度，具体组合形式见表1。

表1 不同模型参数输入组合

以均方根误差(RMSE)，相对均方根误差(RRMSE)，确定系数(R2)，平均绝对误差(MAE)和效率系数(Ens)5种指标形成评价指标体系，用于评判不同模型的精度，具体公式如下：

(3)

(4)

(5)

(6)

(7)

由于评估指标过多，单个评估指标很难比较不同的模型。因此，引入GPI指数来全面评估模型仿真结果，通过计算不同模型GPI的数值，比较不同模型精度，其中GPI数值越高，表明该模型精度越高[23]，具体公式如下：

(8)

式中:αj为常数,反映了不同指标对于最终精度的影响程度,其代表了指标性质与精度最优值之间的距离,因此对于负相关的误差指标MAE,RRMSE和RMSE，αj取1,正相关的一致性指标Ens和R2，αj取-1,gj为不同指标的缩放值的中位数;yij为不同指标的尺度值。

2 结果与分析

2.1 ET0日值精度指标对比

分别计算不同站点共35种模型的精度指标，计算结果可见表2。由表中可以看出，不同模型在不同参数输入下的精度存在差异。在丰都站，当以组合1为输入组合时，GEM1模型精度最高，SVM1模型精度次之，RMSE分别为0.150,0.207 mm/d，RRMSE分别为6.67%和9.19%，R2分别为0.989,0.979，Ens分别为0.989,0.978，MAE分别为0.116,0.161 mm/d，2种模型的GPI指数分别为1.135,0.732，排名较高；在组合2的条件下，同样是GEM2模型和SVM2模型表现出了较高的精度，而RF2模型精度最低，其RMSE为0.295 mm/d，RRMSE为13.13%，R2为0.957，Ens为0.956，MAE为0.227 mm/d，GPI指数为0.068；输入组合3时，GEM3模型精度远高于其余模型，其RMSE为0.278 mm/d，RRMSE为12.36%，R2为0.961，Ens为0.961，MAE为0.196 mm/d，GPI指数为0.244；当输入组合4时，GEM4模型和SVM4模型精度较高，RF4模型精度最低；输入组合5时，GEM5模型精度较高，其GPI指数为正，达到了0.260，其余模型精度较低，GPI指数均为负；输入组合6的模型精度远低于其余模型，精度最高的模型为GEM6模型，但GPI值仅为-2.548；输入组合7时，GEM7精度最高，而GRNN7模型精度最低。

表2 ET0日值计算精度指标(以丰都为例)

在奉节站，当输入组合1时，GEM1模型精度最高，RMSE为0.368 mm/d，RRMSE为12.51%，R2为0.937，Ens为0.935，MAE为0.291 mm/d，GPI指数为0.820，在所有模型中精度最高；当输入组合2时，GEM2模型精度远高于其余模型；在该站点，输入其余组合时均表现为GEM模型精度最高。

在其余站点，当输入不同的参数组合时，均表现为GEM模型精度远高于相同组合输入情况下的其余模型。

图2为整个区域不同模型的计算精度对比。由图中可以看出，在整个重庆地区，在相同组合下同样表现为GEM模型精度最高，而GRNN模型和RF模型的精度较低。在相同模型下，输入组合1时表现出的精度最高，表明输入5种全气象参数可保证模型计算精度，在4种气象参数输入的组合下，输入组合2(Tmax，Tmin，n，U2)和组合4(Tmax，Tmin，n，RH)的精度明显高于输入组合3(Tmax，Tmin，U2，RH)，这表明辐射项n是保证模型精度不可缺少的重要因素，而组合4的精度要高于组合2，这表明相对湿度RH对ET0变化的影响程度高于风速U2。输入3种气象参数时，组合5的精度要显著高于组合6，表明Tmax和Tmin同样是影响模型精度的关键因素。比较组合5和组合7的精度可知，有无辐射项n对模型精度的影响显著，综上分析，重庆地区5种气象因素对ET0变化的影响程度由高到低依次为日照时数n、温度项Tmax和Tmin、相对湿度RH、风速U2。

图2 整个研究区域不同模型不同组合计算精度

2.2 ET0月值趋势对比

图3(以丰都为例)为不同模型计算ET0月值的年内分布趋势对比。由图中可以看出，不同模型计算结果与P-M模型计算结果变化趋势基本一致，均呈现先增加后降低的变化趋势，其中在输入组合1时，不同模型ET0月值变化趋势与P-M模型计算结果最为接近，在组合1中GEM模型与P-M模型计算结果的曲线图拟合效果最好，GRNN模型和RF模型在各个站点的拟合效果较差；在组合2时，拟合效果较组合1有所降低，同样表现为GEM2模型的拟合效果最高；在输入组合3时，不同站点均表现为GEM3模型精度最高；组合4与组合2的模拟结果较一致，计算精度要显著高于组合3；组合5和组合6输入参数较少，而组合5的计算精度显著高于组合6，组合7虽然仅输入了Tmax和Tmin2种参数，但其精度要高于组合6。显然在进行ET0月值模拟计算时，组合6输入n，RH，U2等3种参数是不可取的。

图3 不同模型丰都站ET0月值变化趋势

2.3 人工智能模型与经验模型对比

为证明人工智能模型的优势，本文计算了4种经验模型的精度，并与相同参数输入情况下精度最低的人工智能模型对比，结果见表3。由表3可知，虽然输入Tmax，Tmin，n的SVM5模型和输入Tmax，Tmin的SVM7模型的精度在人工智能模型中最低，但其精度仍高于相同输入参数的经验模型，因此，在缺少气象资料情况下，建议在重庆地区采用人工智能模型计算ET0。

表3 人工智能模型与经验模型精度对比

3 讨论

在相同输入参数条件下的人工智能模型精度要明显高于经验模型，这与刘小华等[24]、魏俊等[14]、邢立文等[25]的研究结论基本一致。本文研究发现，GEM模型在所有模型中表现出了最高的精度，该模型可通过比较标准数据和模拟数据之间的关系，从而计算出高斯指数用于模型模拟，在一定程度上保证了模型精度。Lesser等[26]验证了GEM模型与其余模型的计算精度，同样指出该模型可保证模型效率和训练速度，其精度最高。

本文研究表明，所有的应用模型能够较好反映出ET0与大气之间变化关系的复杂过程，这主要是由于人工智能算法能够识别ET0与环境变量之间的非线性关系[27]。在不同站点中，GEM模型在不同输入参数组合条件下，都表现出了最高的精度，同时该模型的预测模拟时间仅为15 s，远低于其余模型(ELM为20 s，SVM模型为33S，GRNN模型为50 s，RF模型为65 s)，作为一种较新的建模技术，GEM模型在预测日ET0方面表现出较高精度，这在以往的研究中从未得到证实，同时该模型的计算效率要高于其余模型，这表明该模型方法具有简单的网络结构和非调优机制。这一优势可将该模型用于解决诸如干旱、降雨和径流预测等实时预报问题中。

本文研究同时表明，ELM模型能够普遍较好估算日ET0。SVM模型、GRNN模型和RF模型需要更长的时间来寻找各自的最优参数。与其余模型相比，ELM模型更有效地避免过拟合，并具有更高的趋近度[28]。同时，已有研究表明，ELM模型在运行过程中存在Sine函数、Radbas函数和Hardlim函数共3种激活函数，本文采用ELM模型默认的Sine激活函数进行计算，虽已有研究表明，Sine激活函数下的ELM模型精度最高，但在重庆地区尚未得到验证。在今后的研究中，将对不同激活函数下的ELM模型精度进行比较，以期得到适用于重庆市ET0模拟的最优ELM模型激活函数。本文同时发现，影响重庆地区ET0变化的主要因素由高到低依次为日照时数n、温度项Tmax和Tmin、相对湿度RH、风速U2。可基于无偏导数法计算该地区5种气象因素对于的ET0敏感系数，从而验证该结论[29]。计算出的敏感系数结果可见表4，由表4可以看出，日照时数、温度项的敏感系数较高，相对湿度RH次之，风速的敏感系数最低，进一步验证了本文结论。