APP下载

基于人工神经网络的雅鲁藏布江流域NDVI预测模型

2021-01-27迟凯歌石树兰崔黎壮

中国农村水利水电 2021年1期
关键词:雅鲁藏布江人工神经网络植被

迟凯歌,庞 博,石树兰,崔黎壮

(1. 北京师范大学水科学研究院,北京 100875;2. 城市水循环与海绵城市技术北京市重点实验室,北京 100875)

0 引 言

植被作为陆地生态系统的主要组分,是生态系统存在的基础,也是联结土壤、大气和水分的自然“纽带”,它在陆地表面的能量交换过程、生物地球化学循环过程和水文循环过程中扮演着重要的角色,在全球变化研究中起着“指示器”的作用[1-3]。NDVI(the Normalized Vegetation Index)是研究植被变化的重要工具,能够较好地反映出区域下垫面植被动态变化的规律。

近年来,国内外在NDVI预测模型方面开展了大量的研究。例如,IWASAKI利用GSMaP(降水数据种类)降水量和JRA-25/JCDAS(温度数据种类)温度对蒙古草原进行NDVI预测,建立了逐步多元线性回归分析预测模型[4];阿西穆等人基于Markov模型对渭干河和库车河流域的绿洲地区的植被覆盖进行动态变化预测研究[5];林楠等人以吉林东部为研究区在进行植被覆盖动态变化分析的基础上,利用马尔柯夫模型和灰色系统G(1,1)模型对研究区植被覆盖进行动态模拟和预测,分析其演变特点及规律[6]。WANG等人采用多元线性回归方法对我国南方丘陵地区的降水和温度进行NDVI模拟[7]。雅鲁藏布江流域地形特征复杂,气候变化敏感,生态系统脆弱,如何综合考虑气候要素对流域植被覆盖的影响,构建机制清晰,精度可靠的植被覆盖预测模型成为生态水文领域的挑战[8-10]。随着机器学习技术的发展,人工神经网络由于其强大的非线性模拟能力在预测模型领域得到了广泛的应用。因此,本文综合采用主成分分析、偏相关分析和人工神经网络模型,尝试构建雅鲁藏布江流域的NDVI预测模型,探索为气候地形复杂区域的植被覆盖研究提供一种新的方法。

本研究采用雅鲁藏布江流域及其周围地区30个地面站点数据和MODIS数据,计算得到流域内NDVI的数值变化的时空规律,对流域内植被动态变化进行了分析,并进一步构建了NDVI预测模型,对进一步探求雅鲁藏布江流域下垫面的驱动规律,积极应对气候变化对下垫面带来的影响具有十分重要的意义。

1 研究区概况与数据源

1.1 研究区概况

雅鲁藏布江流域是青藏高原上最大的河流,也是最重要的国际河流之一,发源于西藏自治区南部,喜马拉雅山北麓的杰玛央宗冰川[11,12]。雅鲁藏布江流域横贯青藏高原南部,河流总长为2 057 km,流域面积为24.2 万km2[13,14]。雅鲁藏布江流域(图1)是世界上最高的河流之一,平均海拔在4 500 m以上,流域地势西高东低,其上较大支流有拉萨河、帕隆藏布、年楚河、多雄藏布和尼洋河等[15]。雅鲁藏布江流域的气候条件主要受高原地理位置和地势特点支配[16],上游地区属高原寒温带气候,年平均降水量不足300 mm。中游地区属高原温带气候,年平均降水量为300~600 mm,河谷地带年平均气温在4.7~8.6 ℃之间[17,18]。下游地区属热带亚热带气候,下游地区的巴昔卡附近年均降雨量在4 000 mm以上。

受特殊地质地貌和水热因素的影响,流域自然景观多样。流域下游水汽条件良好,主要植被类型有热带低山半常绿雨林、亚热带常绿阔叶林、亚热带山地半常绿阔叶林和常绿针叶林;中游地区植被类型为山地与河谷灌丛草原,普遍分布着灌丛草原植被,草本植物为中温型禾草;上游地区主要植被类型为高寒草原、高寒草甸、高寒灌丛以及高寒垫状植物。

1.2 数据来源与预处理

本文利用2000-2015年雅鲁藏布江的NDVI资料,研究时段内的雅鲁藏布江的植被覆盖变化。在神经网络的模拟模式中,输入为实测的降雨和气温,输出为模拟的NDVI指数,NDVI数据来自MODIS遥感卫星数据,已经过云处理。雅鲁藏布江降雨和气温数据收集自国家地球系统科学数据平台,研究数据跨度时间是2000年2月至2015年12月。其中NDVI数据和气象数据已经分别应用于雅鲁藏布江的植被变化研究[19]和极端气候事件研究[20],数据在下载前通过了均一性检验以及质量控制,具有较高的可靠性。本文用到的雨量站总共有30个,并且根据雅鲁藏布江地区自然水系将区域分为5个子区域,一区的雨量站有普兰、改则、聂拉木、定日、拉孜和申扎;二区的雨量站有日喀则、帕里、江孜、南木林、尼木和浪卡子;三区的雨量站有当雄、拉萨、墨竹工卡和那曲;四区的雨量站有嘉黎、波密、八宿、洛隆和比如;五区的雨量站有林芝、加查、米林、泽当、贡嘎。子流域分区情况见表1。

表1 雅鲁藏布江子流域分区表Tab.1 Yarlung Zangbo River Basin Division

2 研究方法

2.1 主成分分析

主成分分析(Principal Component Analysis, PCA)最早是由Pearson于1901年提出的一种通过对协方差矩阵进行分析,主要目的是在降低数据维数的条件下保持数据集对方差贡献最大的一种统计分析方法。其原理为通过降维的方法将原来的多个指标转化为一个或几个综合指标,即主成分(PCS),而各主成分之间互不相关。即

(1)

式中:x1,x2,…,xp,为原始变量;Z1,Z2,…,Zm(m≤p)为新变量指标;lmp为先变量权重。

2.2 偏相关分析

偏相关分析(Partial Correlation Analysis,PAR)是在多要素构成的自然系统中,对其他变量的影响进行控制的条件下,衡量多个变量中某两个变量之间的线性相关关系的密切程度的分析方法,以偏相关系数来度量偏相关程度。偏相关计算公式的通式为(r为两个变量之间的相关系数):

(2)

一阶偏相关系数计算公式为:

(3)

即消除第3变量影响,分析两变量的相关关系,二阶偏相关系数计算公式为:

(4)

即消除第 3变量和第 4 变量的影响,分析两变量的相关关系。其他多阶偏相关系数计算公式都可以通过N阶偏相关系数计算通式推导出来,对求得的相关系数,可以用显著性检验方法进行显著性检验。对相关系数显著性检验方法多选取F检验进行检测,F检验又称方差齐性检验,主要通过对比2个变量数据的方差,以确定其吻合度是否有显著性差异,当数据变量个数充分大时,统计量近似服从F分布。

2.3 人工神经网络模型

人工神经网络是借鉴大脑和神经系统存储和处理信息的特征抽象出来的一种数学模型。前馈BP(Back Propagation )神经网络是应用广泛的静态网络。BP网络以其良好的泛函逼近能力以及自组织、自适应性能和容错性等优点为水文系统的建模、识别和预测提供了一种有效的研究手段[21]。BP 神经网络是一种包含输入层、隐含层和输出层的前向网络结构,它的基本特点是信号经输入层、隐含层逐步处理后向前传递直达输出层,神经网络每一层神经元的状态只由上一层决定,如果输出层得到的输出结果与期望输出不在误差允许范围内,则信号逆向反馈,调整网络的权值和各神经元的阈值,使得网络输出与期望的输出无限靠近,直至误差允许的范围内[21],具有以非线性适应性为特征的信息处理能力、十分优良的非线性逼近能力以及较好的容错性,因而能够对大规模数据进行并行处理,且自组织,自学习与自适应能力突出,被广泛应用于预测、分类、模式识别和聚类等领域[22]。

BP模型分为训练与检验两个部分,模型由率定数据集进行训练,当达到最小误差限制或者最大迭代次数时,模型训练结束。模型的数学表达由下式所示:

(5)

式中:xi为节点i的输入值;Ok为节点k的输出值;g1为隐含层的激活函数;g2为输出层的激活函数;M和N分别是输入层和隐含层中神经元的个数;wj0为隐含层中第j个神经元的偏差;wk0为输出层中第k个神经元的偏差;wji为输入节点i与隐含节点j之间的权重;wkj为隐含节点j和输出节点k之间的权重。

模型计算在MATLAB(2016)环境下进行。ANN模型采用MATLAB中BP神经网络工具箱,隐含层和输出层的传递函数分别使用Sigmoid函数和线性函数,并且为了避免过度拟合采用了早停函数earlystopping有效避免过度迭代。其中,2000-2009年数据进行模型率定,2010-2015年数据为模型验证。

2)修改的后64卦卦序(图8),揭示了64卦序数/阴阳对称规律,这也许是一个史无前例的、划时代的发现!呈现出既阴阳对称又数量平衡,阴中有阳,阳中有阴,阴阳相抱,自然天成。这岂不是精美的“阴阳/数量太极图”吗?64卦若采用比干八宫卦序,那么乾为首卦就要改变了,即坤为1,乾为2。

本研究的主要计算过程如下:首先利用2000-2015年的MODIS数据,利用归一化植被指数的方法得到16年间NDVI逐月的数值大小,以及流域NDVI的多年平均值。其次,使用线性拟合的方法得到流域内5个分区NDVI的增长速率,并计算NDVI在各个分区上的Hurst指数,以分析NDVI变化的持续性。最后,分别采用主成分分析法和偏相关分析法提取得到影响NDVI的主要影响因子,作为输入因子输入人工神经网络模型。模型基于MATLAB计算平台,其中未采用因子筛选的模型简称为ANN,采用主成分分析进行因子筛选的模型简称为ANN-PCA, 采用偏相关分析进行因子筛选的模型简称为ANN-PAR,最后得到NDVI的预测模型。

3 模型评价指标

本文中选取4种模型评价指标来评价各个模型的表现能力:纳西效率系数(NASH)、均方根误差(RMSE)、平均绝对误差(MAE)和相关系数(R),其计算公式如下所示:

(6)

(7)

(8)

(9)

4 研究结果与分析

4.1 NDVI的时空变化趋势

雅鲁藏布江流域2000-2015的NDVI年均空间分布特征如图2所示,如图2所示,流域NDVI呈从西向东,从北向南的增加趋势。受印度洋暖湿气流影响,区域5的NDVI显著高于其他区域。

其中,区域1到区域5的NDVI多年平均值分别为0.13、0.18、0.24、0.23、0.31。5个区域的植被状况稳定,呈现不显著的增长趋势。以区域5为例,对子流域的NDVI的多年平均数值进行线性拟合,从图中可以看到,在2000-2015年期间,NDVI区域5上呈现出增加的趋势,其倾向率为0.002/(10 a),变化幅度较小,这与全球气候变化背景下,中高纬度降水增加的变化趋势相一致。

本文对雅鲁藏布江地区NDVI的变化的持续性也做出了研究。各个区域Hurst指数计算结果如表2所示。如图,区域1到区域5的Hurst指数呈现上升趋势。其中区域1呈弱反持续性,当前该区域的趋势不是很明显比较稳定,在未来植被有可能会稍微减少。区域2到5都呈现持续性,表明未来NDVI将持续增加,而且从上游到下游的持续性越来越强。

表2 各个子流域区域Hurst指数计算结果Tab.2 Results of Hurst index of each sub-watershed area

各个子流域的NDVI的MK突变检验结果如图4所示。如图所示,区域突变不明显,NDVI变化相对稳定。

4.2 影响因子分析

分别采用主成分分析法和偏相关分析法对影响NDVI变化的主要气象因子进行分析。其中,主成分分析方法本文选取累计方差贡献率高于90%的主成分作为主要影响因子,结果如表3所示。偏相关分析的结果如表3所示,且本文选择偏相关系数大于0.3的变量作为主要影响因子(结果加粗的为偏相关分析中筛选出的影响因子)。

从表3和表4可以看出,气温和降水对各区域NDVI的影响分别随着时间推移逐步衰减。主成分结果统计表明,各区域前3个月的气温和降水会对NDVI有主要影响,而偏相关分析中影响因子的范围缩小主要集中在前两个月的降雨和气温。两种方法的结果表明,总体上同时期气温对NDVI的影响要略高于对降水的影响,利用两种方法对因子进行筛选,并将筛选出的因子作为输入输进人工神经网络模型进行NDVI模拟可以提升精度。偏相关分析与主成分分析的结果与相关研究的结论较为一致。例如郭兵[23]等提出雅鲁藏布江流域植被覆盖度受降水和气温的影响较大,但是作用到植被覆盖具有一定的滞后性。本文采的影响因子相关分析结果与其结论相似。

表3 主成分累计贡献率及所选主成分 %

表4 各个成分偏相关计算结果Tab.4 Partial correlation calculation results

4.3 模型预报结果

输入数据的选择是人工神经网络模型构建的关键问题之一[22]。如何有效地利用数据信息,同时避免由于过多的输入数据导致网络结构过于复杂,出现过拟合现象,成为研究的热点[24]。本文分别使用主成分分析和偏相关分析进行人工神经网络的输入因子筛选,通过比选构建NDVI预测模型。其中采用主成分分析进行因子筛选的模型简称为ANN-PCA, 采用偏相关分析进行因子筛选的模型简称为ANN-PAR。为了比较,加入采用全部预报因子作为输入的人工神经网络模型,简称ANN。表5给出了人工神经网络模型的率定和验证结果。

表5 人工神经网络计算结果Tab.5 Artificial neural network results

结果表明,基于人工神经网络的NDVI预测模型能够取得较高的预报精度。其中,ANN-PCA模型在各分区的率定期的NASH系数分别为0.68、0.74、0.79、0.75、0.78,检验期分别为0.67、0.73、0.77、0.75、0.72。模型在各区域的率定验证结果均达到了0.7左右,取得了较高的模拟预测精度。

其次,从不同神经网络的模型的结果可以看出,ANN-PCA模型和ANN-PAR模型均显著优于ANN模型。在率定期,ANN-PCA模型比ANN模型在各分区的NASH系数分别高0.17、0.11、0.15、0.11、0.06,在检验期,分别高0.11、0.10、0.13、0.10、0.12。两种筛选方法对比,ANN-PCA模型略优于ANN-PAR模型,在率定期,ANN-PCA模型比ANN-PAR模型在各分区的NASH系数分别高0.03、0.05、0.01、0.04、0.06,在检验期,分别高0.04、0.02、0.02、0.08、0.05。结果体现了NDVI预测模型构建时因子筛选的重要性。流域分区在率定期和验证期NASH效率系数如图5所示。结果表明,ANN-PCA和ANN-PAR模型由于经过因子筛选,避免了冗余数据的输入,有效提高了人工神经网络的训练效率。两个模型的精度显著高于未经过因子筛选的ANN模型。因此,无效或冗余的输入数据是人工神经网络误差产生的重要原因,而因子筛选江有助于人工神经网络模型精度的提高。

5 结 论

在全球气候变化的背景下,雅鲁藏布江流域的生态系统也随之发生了变化。本研究基于2000-2015年雅鲁藏布江流域的MODIS数据和气象站点数据,分析雅鲁藏布江流域植被的空间分布特征,并通过主成分分析和偏相关分析方法进行影响因子筛选,构建了基于人工神经网络的NDVI预测模型。主要结论如下:

(1)NDVI在雅鲁藏布江流域整体上植被覆盖比较稳定,呈现不显著的增长趋势。Hurst指数的分析结果表明,雅鲁藏布江干流上游流域(拉孜站以上)呈反持续性,未来植被覆盖将可能减少,下游区域呈持续性,未来植被覆盖将持续增加,且持续性从上游到下游逐渐增强。

(2)采用主成分分析和偏相关分析分别对影响雅鲁藏布江各子流域NDVI的因子进行了分析,结果表明对NDVI具有显著影响的降雨和气温主要集中在前3个月,同期气温的影响要高于降水的影响。

(3)本文所构建的NDVI预测模型具有较高的模拟与预报精度。其中,影响因子的筛选能够显著提高人工神经网络的预测精度。本研究中,使用主成分分析筛选得到的模拟结果相比于偏相关分析得到的模拟果更接近真实值。

论文所建模型和分析结论能够为西藏生态环境治理提供技术支持。由于人工神经网络模型的精度依赖于训练数据,因此该方法适用于具备较长观测资料,气象数据较为完整的区域。同时缺乏物理机制的具体分析是人工神经网络模型的主要缺点,下一步将结合雅鲁藏布江流域的植被类型,将在拉萨河等子流域进行典型研究,深入分析其物理机制,并考虑更多的局地影响因子(如高程等)进行综合分析评价。

猜你喜欢

雅鲁藏布江人工神经网络植被
基于高分遥感影像的路域植被生物量计算
呼和浩特市和林格尔县植被覆盖度变化遥感监测
基于人工神经网络的Ni-ZrO2纳米镀层耐腐蚀性能预测
追踪盗猎者
第一节 主要植被与自然环境 教学设计
2018年长江流域水旱灾害防御工作回顾与展望
人工神经网络实现简单字母的识别
雅鲁藏布江—布拉马普特拉河流域GDP数据空间化估算与分析
基于人工神经网络的优化配置研究
中国与孟加拉国在雅鲁藏布江河流治理中的合作与问题探究