APP下载

基于机器学习的浐灞河水质参数遥感反演研究

2022-10-06喆,连清,李娜,王璇,方焱,徐

人民长江 2022年9期
关键词:河段波段反演

王 喆,连 炎 清,李 晓 娜,王 璇,方 焱,徐 新 涵

(1.西安地球环境创新研究院,陕西 西安 710061; 2.中国科学院 地球环境研究所,陕西 西安 710061)

0 引 言

传统的水质取样和监测方法过程复杂、周期长、耗费大量的时间精力,且数据的频次、时效和代表性远远滞后于环境管理与决策需求,特别是一些突发性、大范围的环境质量变化不能被及时捕捉。而遥感技术具有大范围、低成本、周期性动态监测的优势,为水质监测和研究开辟了新的途径,它克服了常规方法主观性强、监测范围小、长期趋势分析困难的缺点,并可发现一些常规方法难以揭示的污染源和污染物的迁移特征,因此在内陆水质监测中发挥着越来越大的作用。

自20世纪70年代以来,遥感开始应用到水质监测研究中[1-2],几十年来,国内外已经开展多种利用遥感数据建立水质参数反演模型以监测海洋、近岸地带以及内陆水体水质环境变化的研究,并在估算光学活性参数方面取得了一定成果,如叶绿素a(Chl-a)、有色溶解有机物(CDOM)、浊度和透明度等[3-4]。而像TP、TN等非光学活性参数通常通过与光学活性参数建立关系进行估计。Li等[5]利用新安江水库2013~2016年的实测水面TN、TP数据与准同步的Landsat8的OLI卫星影像,构建并验证了2个经验反演模型,估算了新安江水库的TN和TP与不同波段组合的相关关系,效果比较理想。黄宇等[6]利用无人机高光谱成像仪,反演了星云湖与茅洲河的水质参数浓度,构建的水质反演模型精度较高。

近年来,随着人工智能技术的发展,越来越多的研究把机器学习理论融入到水质遥感监测中。机器学习是指通过某些算法指导计算机利用已知数据来训练模型,并利用训练后的模型对新数据进行分析或者预测的过程,具有自适应、自学习、高效率和容错性等优点,且能够挖掘出数据隐藏的潜在关系和规律,在水质估测方面具有一定的优势[7]。Guo等[8]采用多种机器学习算法对小型水体的总氮、总磷浓度进行反演,比较了不同算法的反演结果,对于城市排放污水具有一定的识别作用。Pahlevan等[9]采用混合密度网络(MDN)机器学习模型,应用于内陆和沿海水域的Chl-a浓度的反演,有效提高了训练数据的全局代表性。Hartling等[10]应用密集卷积网络(DenseNet)算法,融合多源数据集遥感图像识别城市环境中的优势树种,该方法有效提高了城市优势树种的分类准确率。李怡静等[11]基于梯度提升决策树算法构建了水质反演模型,该方法反演各类水质的精度较高且速度较快,具有实用价值。李玉翠等[12]在武汉市东湖采用多种经典机器学习算法建立了水质参数与影像反射率间的定量反演模型,并对东湖富营养化程度进行了评价。

浐灞河下游河段位于西安市浐灞生态区,该区是首个西北地区国家级水生态系统保护与修复示范区。该地区水源较为丰富,但受到周边市区早期工业化与城市化开发的影响,水质较差,并且受早期挖沙采石影响河道破碎化严重。近些年经过治理,水环境状况有了很大改善,但仍需要长期关注且实时监测,具有典型性。以该区域的浐灞河河段为研究区,选取水体中TN、CODMn两个水质参数,采用人工神经网络和随机森林两种机器学习方法,构建水质遥感反演模型,探究水质参数的时空演化规律。研究成果可为遥感技术监测水质提供借鉴,对于水环境质量提升具有重要的意义。

1 研究区概况及数据源

1.1 研究区概况

本研究以进入西安市城区的浐河灞河下游河段作为研究区域,包括浐河河段(桃花潭公园)和灞河河段(灞桥湿地生态公园)及汇合后至入渭口的河段,如图1所示。该区域年均降水量小于700 mm,且年内分布不均,7~10月降水量占全年的60%以上。研究区域所在的浐灞生态区是陕西省经济发展的重要依托,该区承接了上游的农业面源污染,且河段两岸经济和工业发达,分布有多个雨水排放口,导致河流水体出现一系列水环境问题,氮素(N)浓度超标、水质恶化等。

1.2 数据采集及处理

收集与水质参数采集时间一致的Sentinel-2卫星遥感数据用于提取水体和水质遥感反演的输入数据,水质样点实测数据用于验证模型精度,以下介绍各数据获取及处理过程。

1.2.1Sentinel-2数据及预处理

Sentinel-2A卫星于2015年6月23日发射,搭载的有效荷载为多光谱成像(multispectral instrument,MSI)。MSI传感器有13个波段,分为可见光、近红外和短波红外3部分,中心波长范围为490~2 190 nm。Sentinel-2A卫星的优势在于更短的访问周期和高分辨率,能够更精确地刻画河道水体。本研究在构建人工神经网络反演模型时,需要卫星影像数据和水质采样点时间相近,两次采样时间分别为2019年12月与2020年7月,获取研究区相应时间段的Sentinel-2A卫星数据中的L1C影像数据。Sentinel-2A卫星传感器的光谱相关参数如表1所列。

表1 Sentinel-2卫星相关参数Tab.1 Parameters of Sentinel-2

1.2.2提取水体范围

遥感水体提取的发展历经了几十年,经历了从目视解译到光谱特征提取,自动分类再到光谱与空间信息结合等多个阶段。多波段谱间关系法综合利用了多个波段的光谱信息,提取效果往往要比单波段阈值法要好[13]。因此,本文采用多波段方法提取水体,综合采用归一化水体指数NDWI、改进的归一化水体指数MNDWI、增强水体指数EWI这3种水体指数(见表2),增强水体信息同时抑制其他非水体信息[14],融合不同水体指数的水体提取优势,利用ENVI5.1软件中波段运算工具进行各水体指数计算,再对其灰度进行分割,确定最佳阈值,提取各采样时间段的水体信息。

表2 水体指数物理意义及特点Tab.2 Physical significance and characteristics of water index

Sentinel-2卫星的B3波段为绿波段(Green),B8、B8A波段为近红外波段(NIR),未设置中红外波段。但是水体在B12波段(中心波长2 202.4 nm,半高宽242 nm)的光谱反射特性与在中红外波段的反射特性相似,故本文用B12波段代替中红外波段(MIR)参与波段计算。提取的水体如图1所示。

1.2.3水质数据采样及测定

分别在2019年12月(枯水期)和2020年7月(丰水期)选取浐灞河下游段的8个断面的样点数据,采样过程严格按照HJ/T 91-2002《地表水和污水监测技术规范》[15]有关要求执行。选择样点TN、CODMn两个水质参数,测定时需添加H2SO4调节。水质参数的测定严格按照GB 3838-2002《地表水环境质量标准》[16]执行,数据精度和准确度均符合国家水质检测方法标准要求。其中,TN采用流动分析仪测定,CODMn采用酸性法测定。

2 研究方法

2.1 构建人工神经网络模型

人工神经网络(ANN,Artificial Neural Network)算法是一种强大的分类和回归算法,其灵感来自于人脑的神经结构[17]。人工神经网络以多个神经元为隐藏层将输入数据与输出数据进行连接,从而挖掘出输入和输出数据之间的潜在关系。目前,人工神经网络在许多研究领域均得到广泛应用[18-19],比如生物记忆、模式识别、图像处理、卫星降水量估算、水库调度。

本文构建的ANN模型将各水质样点的B2~B8A波段像元值作为模型输入,输出模拟的水质参数浓度值,其中水质浓度实测值用于率定和检验。水质浓度实测值样本数量为8个,该模型的隐藏层为单层,隐藏层神经元节点数量为8个(见图2)。基于Platypus库调用NSGA-Ⅱ算法优化ANN模型内部权重参数,将算法中种群规模设置为100,评价次数为5万,二进制交叉算子(SBX)取值为(1.0,15.0),多项式变异概率(PM)取值为(0.125,20.0),完成反演过程。

2.2 构建随机森林模型

为了充分检验ANN模型的拟合效果,选取随机森林(Random Forests,RF)模型作为比较基准。随机森林算法是一种通过集成大量的决策树来改进分类和回归树(CART,Classification and Regression Tree)的方法[20]。在随机森林回归中,引入的随机森林算法将自动创建随机决策树群,通过从训练数据集中选择随机变量集,并采用随机有放回抽样的方法来构建每棵树[21],最后通过对所有树的均衡化来计算实测值的估测值。本文基于深度学习框架Tensor Flow构建RF反演模型,涉及的参数包括最大决策树数量NE、决策树最大深度MD和最大特征数MF,并采用试错法确定参数取值为NE50-MD25-MF6。

2.3 留一法交叉验证水质参数精度

为了验证求解出来水质指标(TN、TP、CODMn)的代表性和适用性,引入留一法交叉验证(LOOCV)进行论证[22]。留一法交叉验证已经被证明能够有效评价机器学习模型的归纳性特征,并且其结果是几乎无偏的,且能够充分利用所有样本,适用于样本数量较小的情景。该方法具体步骤为:从样本数据集中选择一个样本数据作为验证数据;然后使用剩下的样本数据训练模型,并用最先被排除的那个样本数据来验证模型精度,如此重复8次(样本个数);最终提取8个样本的预测结果进行统计分析。本文的采样点数量为8个,交叉验证K折数为8。

2.4 评价指标

为评价2种方法反演精度,引入决定系数(R2)与均方根误差(RMSE)对估测模型进行精度检验。计算公式为

(1)

(2)

3 研究结果

3.1 ANN模型与RF模型结果与分析

选择卫星遥感数据B2、B3、B4、B5、B6、B7、B8、B8A波段及实测水质数据建立水质反演模型。表3~4为反演结果及精度。

表3 ANN模型各水质参数反演结果均方根误差与决定系数Tab.3 The inversion results of RMSE and R2 by ANN algorithm

应用留一法交叉验证法得到ANN模型8个样点的评价指标值(见表3),得到2019年12月TN、CODMn的平均均方根误差分别为0.54和0.32,平均决定系数分别为0.79和0.80。由于本文选择的样本量较少,在做交叉验证时可能存在较大的泛化误差,分别计算了各评价指标的标准差。均方根误差的标准差分别为0.09和0.08,决定系数的标准差分别为0.05和0.08。2020年7月TN、CODMn的平均均方根误差分别为0.08和0.26,平均决定系数分别为0.99和0.99,均方根误差的标准差分别为0.02和0.14,决定系数的标准差分别为0.001和0.001。各个评价指标的标准差较小,表明样本量少并没有带来太大的泛化误差,模型结果较为可靠。

RF模型各个样点的评价指标值如表4所列。2019年12月TN、CODMn的平均均方根误差分别为0.62和0.50,决定系数分别为0.65和0.48,均方根误差的标准差分别为0.12和0.11,决定系数的标准差分别为0.14和0.22。2020年7月TN、CODMn的平均均方根误差分别为0.8和4.63,决定系数分别为0.53和0.73,均方根误差的标准差分别为0.15和1.18,决定系数的标准差分别为0.17和0.15。各个评价指标的标准差较小,表明样本的泛化误差较小,模型结果较为可靠。

表4 RF模型各水质参数反演结果均方根误差与决定系数Tab.4 The inversion results of RMSE and R2 by RF algorithm

对ANN和RF两种模型的指标评价结果分析可知:ANN模型估算得到的水质参数结果优于RF模型,ANN模型在本文研究区域体现出了优于RF模型的估算性能。因此,本文后续在进行水质参数浓度空间分布时采用ANN估算的水质参数。

3.2 各水质参数空间分布特征

利用ANN模型验证后的模型参数,输入水体各波段数值,得到了水体范围内的水质参数浓度空间分布,如图3~4所示。

整体来讲,跨河建筑物浓度总体上比周围河段高,世博园的河段CODMn与TN相较于上桥村河段含量较低,上桥村附近河段浓度高于中间河段,这是由于受到点源排放口的影响。

在图3中,CODMn在2019年12月浓度为2.96~5.62 mg/L,平均值为3.46 mg/L,2020年7月浓度为3.24~13.93 mg/L,平均值为6.64 mg/L。2020年7月浓度值高于2019年12月。从空间分布来看,浓度高值出现在灞河上桥村附近河段、浐灞河交汇处及浐灞河汇合后秦汉大道西段处,这些地方是人口密度较大和工业分布较为集中区域。2020年7月浓度值高于2019年12月,主要原因是CODMn浓度值的变化主要反映的是有机物和生活污染问题,浐灞河周围分布有大量的居民区和雨污排放口,夏季用水量增加,城市生活污水排放入水体,导致7月浓度整体上高于12月。

如图4所示,TN在2019年12月浓度为5.30~7.77 mg/L,平均值为5.74 mg/L,2020年7月浓度为4.23~9.00 mg/L,平均值为5.42 mg/L。2019年12月TN值高于2020年7月,但2020年7月浓度变化幅度大于2019年12月,这是因为有几个区域在7月出现高值,在灞河上桥村附近河段、浐灞河交汇处、浐灞河汇合后奥体隧道到秦汉大道西段河道及入渭口右岸处,原因是这些地方城市生活污水和工业企业废水大量排放,且附近分布有多个排污口,虽然污水经处理后排放,但仍有大量污染物进入水体。此外,河流周围还有农业和农村生活污水排放源,接纳来自于农田和养殖业产生的污水,降水的季节差异性导致12月整体浓度值高于7月[23]。浐河河段TN浓度值呈现出12月整体上高于7月,同样是由于大量居民日常生活的污水和工业生产的废水在降水的季节性变化下引起的[24]。

4 结 论

本研究以浐灞河下游河段为研究河段,采用人工神经网络和随机森林两种机器学习算法构建水质参数遥感反演模型,对水体中的TN、CODMn两个水质参数进行遥感反演研究,主要得到了以下结论:

(1)本文基于Sentinel-2卫星遥感影像数据,融合多种水体指数法的优势,更准确地提取了研究区河道水体。

(2)采用人工神经网络算法与随机森林算法,根据实测水质样点参数CODMn与TN,构建了水质反演模型,经过对比分析,人工神经网络模型在该地区具有良好的适用性。

(3)将ANN模型应用于整个河段水体,得到水质参数CODMn和TN的空间分布和变化特征,整体上水质参数波动较小,空间分布较为均匀,部分区域出现高值,可能与人类活动有关。此外,CODMn与TN也呈现出季节性规律,这与人类活动的季节性有关。当前,河流在遥感领域受到的关注相对较少,部分原因是河流空间尺度较小(<100 km)和水质参数变动范围大。而长江水系水量较为丰沛,本文构建的水质监测模型对于长江流域水环境实时监测具有重要的参考价值,对于水环境质量提升具有借鉴意义。

猜你喜欢

河段波段反演
长江中下游河段溢油围控回收策略研究
反演对称变换在解决平面几何问题中的应用
Ku波段高隔离度双极化微带阵列天线的设计
最佳波段组合的典型地物信息提取
新型X波段多功能EPR谱仪的设计与性能
洪涝适应性滨河景观设计——以湖南省永州一中河段为例
基于ADS-B的风场反演与异常值影响研究
Meteo-particle模型在ADS-B风场反演中的性能研究
长期运行尾矿库的排渗系统渗透特性的差异化反演分析
最佳波段选择的迁西县土地利用信息提取研究