APP下载

基于机器学习算法的连云港大浦河水质参数遥感反演

2023-10-13王经顺徐向凯

天津科技 2023年9期
关键词:盐河高锰酸盐反射率

王经顺,陈 莹,张 悦,徐向凯,何 超,何 苗

(江苏省环保集团有限公司,江苏省生态环境监测监控有限公司 江苏南京 210005)

0 引 言

大浦河、大浦副河位于连云港市主城区,河道沿线存在不少排污口,部分河段岸坡堆有生活和建筑垃圾,或种满农作物。各种污染物质随日常排水和降雨汇流进入河道,经过水中颗粒物的吸附、絮凝、沉淀、生物吸收等各种方式最终沉积到河道底泥中并不断积累。相比于水中,底泥中的重金属、氮、磷、有机物等污染物的浓度通常会高出几个数量级。在长期的积累中,底泥中的污染物不断聚集沉积会对水质产生持久影响,同时,底泥也会与水体之间进行物质和能量交换,二者之间会保持一种释放与吸附的动态平衡[1]。大浦河、大浦副河换水后,污染物质重新释放到水中,会产生“二次污染”,进而导致水质变差。

针对上述大浦河、大浦副河河段的环境污染问题,了解掌握其水质现状、污染来源情况与受各种污染源影响情况,制定水资源保护相关标准、规划和法规,为水环境保护相关工作提供数据及资料支撑,同时也为污染源管理提供依据。本研究对大浦河及部分支流进行水质监测,并利用机器学习方法对监测数据进行遥感反演,最后分析大浦河流域水质分布特征。

1 研究区域与数据

1.1 研究区域

连云港市地处淮河流域的沂沭泗水系,全市共有82条骨干河道,其中区域性骨干河道18条,流域性河道4条,属于河网地区,也是著名的“洪水走廊”。连云港市境内可分为三大水系,即沭河水系、沂河水系和滨海诸小河水系。盐河、淮沭新河贯穿南北,使得沂河、沭河水系的河流相互贯通[2]。

大浦河排水片为连云港市区八大排水片之一,范围为狮树套闸以北,新沭河右堤以南,西至蔷薇河、东站引河,东至云台山西麓。排水片内有大浦河、龙尾河、玉带河、东盐河、大浦副河、西盐河等河道,与蔷薇河、临洪河等相通,现已设泵和闸控制,水面率约为3.7%。大浦河排水片内的涝水主要由大浦闸排入新沭河,当新沭河行洪水位较高、大浦闸失去自排能力时,启动大浦抽水站抽排涝水;另外,还有一部分涝水由猴嘴闸分泄至大浦河调尾工程入海。大浦河上设盐河桥、大浦闸考核断面,盐河桥位于西盐河上,大浦闸断面位于大浦河上。

本次研究目标河段为大浦河及部分支流,北起大浦闸,南至玉带河,目标河段总长度为13.6 km,其中主河段总长度为10.7 km。任务河段超过半程位于连云港市区,河道两侧为居民小区、商业建筑等楼层较高的建筑。

1.2 研究数据

1.2.1 现场实测数据

本研究于2021年9月在连云港大浦河流域开展现场实测数据采集工作,现场点位如表1所示,每个采样定位均在表层0.5 m处采集水质参数数据,主要括总磷(TP)、氨氮(NH4+-N)及高锰酸盐指数(CODMn)。所有水质指标的检测均参照《水和废水监测分析方法(第4版)》进行,其中TP采用钼酸铵分光光度法(GB/T 11893—1989),NH4+-N采用纳氏试剂法(HJ 535—2009),CODMn采用酸性高锰酸盐指数法(GB/T 11892—1989)[3]。大浦河采样点的总磷、氨氮和高锰酸盐指数统计如图1所示,主要包括每个参数的均值、标准差和变异系数等。

图1 采样点水质参数统计图Fig.1 Statistical diagram of water quality parameters at sampling points

表1 采样点位分布Tab.1 Sampling point distribution

1.2.2 无人机高光谱数据

采用大疆经纬M600pro在无人机平台上搭载ResononPikaXC2高光谱成像仪获取大浦河的高光谱影像。ResononPikaXC2光谱范围为400~1 000 nm,光谱通道数为450,光谱采样率约为1.3 nm,空间通道数为1 500,飞行区域大小为10×0.1 km2[4],设置4条航线,飞行速度控制为7.7 m/s,飞行高度设置在飞行区上空400 m处。采集结束后,对高光谱数据进行预处理,主要包括场地校正、黑白帧校正及镜像变换等[1],具体参数见表2。

表2 ResononPikaXC2高光谱成像仪基本参数表Tab.2 Basic parameters of ResononPikaXC2 hyperspectral imager

2 机器学习算法

2.1 光谱反射比

复色光(白光)经色散系统(如棱镜、光栅等)分光后会形成单色光,这些单色光会按照波长大小自动排列,最终形成光谱。光谱技术的主要特点表现在目标的物理和化学属性都会通过光谱信息表现出来,不同的物质组分光谱信息也不相同,因此,可以利用光谱识别不同物质[5]。

光谱成像技术结合了传统成像与现代光谱仪的优点,在获取地物目标的光谱信息基础上,获取了地物目标的两维空间影像。光谱成像技术具备图像识别和属性探测能力,使得其在精准农业、灾害评估、海岸带调查、资源调查、污染监测、城市规划、军事侦察等领域有着广泛的应用[6]。

对水体而言,水的光谱特征受多方面的影响:一方面,水体本身的物质含量不同,导致光谱特征也会不同;另一方面,不同的水体状态也会影响它的光谱特征。在可见光波段0.6 μm之前,水的主要特征为吸收少、反射率低,约为5%,并随着太阳高度角的变化而变化;水体可见光反射主要由水中悬浮物质(叶绿素、泥沙、浮游生物或其他物质)、水体底部物质反射及水表面反射三部分组成[7]。

清水的反射率比在蓝-绿光波段为4%~5%,在红光波段(0.6 μm以下)会降到2%~3%,在近红外、短波红外能量几乎被全部吸收,反射比趋于0[8]。因此,水体在近红外及短波红外波段的反射能量很小。在本研究中,使用无人机挂载高光谱成像仪进行空中采集时,成像仪指向水面,采集得到的光谱信息来自太阳光入射水面后经过水体及水中物质吸收、散射等作用最终射出水面后的光线。由于缺少水体入射光的光谱信息,无法直接得到水体光谱反射比,因此,需要在航飞采集的同时在成像区域内设置标准灰布,通过灰布进行辐射校正,最终得到准确的光谱反射比信息。

标准灰布由特殊材料制成,如图2所示,在光谱测量中各向同性,光谱反射比全波段相等且确定已知,在采集过程中,同时采集灰布表面的光谱亮度信息,使用已知的灰布光谱反射参数进行校正即可反算得到当时光线条件下地面附近天空入射光的光谱信息[9],再与成像范围内水面光谱亮度信息结合,最终可以计算得到准确的水体光谱反射比信息。

图2 影像中的灰布Fig.2 Gray cloth in image

2.2 MLP模型

近年来,基于丰富的光谱信息和多元的数据处理方法,高光谱技术得到了快速发展[10-11]。虽然高光谱图像可以提供丰富的光谱信息,但是其数据冗余度高、数据量大,导致的多重共线性问题也不可忽视[12]。因此,处理高光谱数据的关键是选择合适的数学建模方法,需建立样本成分和光谱反射率之间的相关模型[13]。

本研究采用目前得到广泛应用的经典机器学习算法——多层感知机(Multi-LayerPerceptron,MLP)进行多光谱反射比数据与水体化学指标的建模。MLP在本质上是一种反向传播的标准监督学习算法,通常被用来拟合复杂的函数或解决分类问题[14]。如图3所示,MLP模型的结构包括3层,分别是第一层输入层、中间一个或多个隐含层、最后一层输出层。对应的每层中分别含有一定数量的输入节点(代表模型中输入参量的个数)、隐含节点(代表模型中模型训练的拓扑结构)及输出节点(代表模型中最终输出的类别数)。所有层之间存在完全连接的结构,所有层之间的信息传输和信息反馈都通过设置的非线性激活函数(fact)、权重系数(W)、偏置项(Bias)实现[15]。MLP模型中接收的总输入(每个隐藏节点输入总和,如Ai和Mi,i=1、2、…、k,k为节点个数)为TIn,经过非线性激活函数处理后的信号TOut将输出到下一层的节点。目前应用最为广泛的MLP模型训练是后向传播(Back-Propagation)算法,它可以高效计算连接权重,并使预测结果更加精确。本项目中MLP的建模使用Python中的机器学习库scikit-learn(https://scikit-learn.org/)完成。

图3 MLP模型结构示意图Fig.3 Schematic diagram of MLP model structure

模型回归效果取决于多个方面的因素,第一个是模型的训练算法,第二个是模型本身的拓扑结构。在本项目中,通过大量重复测试,确定了MLP的最优隐含层结构,同时综合考虑了模型的收敛性、分类精确度及训练时长等。训练过程中MLP的超参数设定见表3,其他未提及的超参数均为默认设置。

表3 MLP超参数设定Tab.3 MLP hyperparameter setting

2.3 模型评价指标

水质参数预测模型采用均方根误差(rootmeansquareerror,RMSE)、平均绝对百分误差(MAPE)、决定系数(coefficientofdetermination,R2)和偏差(Bias)对比模型的稳定性及精度。其中R2与模型的稳定性为正相关,R2越大,表明该模型越趋近于稳定;当R2大于0.8时,表示模型较稳定[16]。RMSE与模型的精度为负相关,其取值范围是[0,+∞)。RMSE越小,表示模型精度越高[17]。Bias反映的是水质参数产品与实测值之间的差异[17],正偏差表示高光谱数据低估了总磷、氨氮和高锰酸盐指数的值,负偏差则表示高光谱数据高估了总磷、氨氮及高锰酸盐指数的值,计算公式如下:

其中:n表示样本数量分别表示实测数据和模型反演数据表示所有实测数据、反演数据的平均值。

3 结果分析

3.1 大浦河流域典型地物光谱特征

选取高光谱无人机影像上典型地物,包括水体和植被像元的光谱反射率曲线,如图4所示,其中图4a列出了500个水体像元的反射率曲线,图4b列出了500个植被像元的反射率曲线。可以看出,大浦河水体的反射主要集中在400~560 nm蓝绿光波段范围内,此范围内大浦河水体的光谱反射率趋于上升,至560~580 nm附近到达峰值,这主要是由于藻类和悬浮物的散射作用,以及水体中叶绿素和胡萝卜素的微弱吸收[7]。大浦河水体反射率曲线会到580 nm后呈现下降趋势,由于水体中的叶绿素a在红光波段具有强吸收的特点,所以会在680~710 nm处附近形成一个峰谷[8];由于水中悬浮物的散射作用,所以大浦河水体会在790~810 nm范围内形成一个反射峰[9]。大浦河沿岸植被的反射率光谱特征为:550 nm附近处有一个峰值,这是由于叶片内部叶绿素a、b的作用;同时,该反射率光谱在450 nm与640~680 nm有2个强烈的吸收带,这是叶片内部胡萝卜素与叶黄素的强吸收所致。由于叶片内部叶绿素a、b和胡萝卜素、叶黄素的共同作用,导致叶片表现为绿色。

图4 水体与植被像元的光谱反射率曲线Fig.4 Spectral reflectance curves of water and vegetation pixels

在上述波段范围内,植被的波谱特征基本上被叶绿素、胡萝卜素所控制,前者占总吸收量的65%~75%,后者占总吸收量的25%~35%。在700~800 nm有一个强烈的陡坡,是由于叶片的栅栏组织结构导致的强反射形成的,这是植被特有的光谱特征,被称为“红边”,红边的陡峭程度决定了植被叶片的健康程度。800~1 100 nm波段叶片散射作用占据主导地位,吸收作用基本可以忽略,因此,投入叶片内部的光线在叶片内部会被反射和折射数次,最后通过上表面向上折射形成反射光,通过下表面向下折射形成透射光。这一过程为随机过程,透射率和反射率基本相等。绿色植被在800~1 100 nm波段有一个非常宽且强烈的反射峰,当叶片因缺水或病虫害而枯萎时,植物细胞会发生萎缩,这意味着折射率差异减小,通过反射率则表现为该波段反射率值显著下降[19]。

3.2 MLP反演模型精度评估

本次建模采取的是K-Fold交叉验证形式,即将数据均等分割为K份,使用其中K-1份数据进行MLP的训练,剩余1份作为独立验证。为了降低模型的复杂程度,作为输入的5个波段反射比数据和作为输出的3项水体化学指标均进行了标准化处理,将数值范围限制在-1~+1之间。交叉验证结果表明MLP的隐含层设为2层各10个神经元为最佳,且各精度指标稳定,未发现过拟合问题。最终的精度如图5所示,其中氨氮和总磷预测值与实测值的决定系数(R2)高于0.8,平均绝对百分比误差(MAPE)在15%以内。高锰酸盐指数的R2为0.58,原因为其数值范围较小,但总体预测效果理想,MAPE仅为2%左右。因此,本项目训练的MLP表现良好。

图5 水体化学指标的预测与实测值对比Fig.5 Comparison of predicted and measured water chemical indexes

3.3 水质参数反演

3.3.1 氨氮浓度

对于氨氮,从反演结果中可见,任务区河段有3处浓度明显高于河段其他区域,自南向北分别为西盐河-玉带河、人民东路以北和振华西路西侧厂区。西盐河-玉带河岔口位于大浦河最南端,岔口南侧西盐河内氨氮浓度明显高于北侧大浦河和玉带河,判断西盐河水体氨氮浓度较高,且对大浦河上游产生了一定程度的影响。人民路跨大浦河的桥下有一条东西走向的支流汇入大浦河,根据反演结果,交汇处以北河段氨氮浓度明显高于交汇处以南,判断该处支流水体氨氮浓度较高,且已对大浦河水质产生显著影响。振华西路西侧有集中的厂房,主要业务为家具建材生产加工,厂区西侧河段氨氮浓度明显较高,判断厂区有工厂偷排废水,影响了大浦河水质。

3.3.2 高锰酸盐指数浓度

对于高锰酸盐指数,从反演结果中可见,大浦河段有3处浓度明显高于河段其他区域,自南向北分别为西盐河-玉带河、人民东路以北和振华西路西侧厂区。西盐河-玉带河岔口位于大浦河最南端,西盐河和玉带河内高锰酸盐浓度明显高于北侧大浦河,判断西盐河与玉带河水体高锰酸盐指数浓度较高,且对大浦河上游产生了一定程度的影响。人民路跨大浦河的桥下有一条东西走向的支流汇入大浦河,根据反演结果,交汇处以北河段高锰酸盐浓度明显高于交汇处以南,判断该处支流水体高锰酸盐浓度较高,且已对大浦河水质产生显著影响。振华西路西侧有集中的厂房,主要业务为家具建材生产加工,厂区西侧河段高锰酸盐浓度明显较高,判断厂区有工厂偷排废水,影响了大浦河水质。

3.3.3 总磷浓度

对于总磷,从反演结果中可见,大浦河段有2处浓度明显高于河段其他区域,自南向北分别为人民东路以北和振华西路西侧厂区。人民路跨大浦河的桥下有一条东西走向的支流汇入大浦河,根据反演结果,交汇处以北河段总磷指数明显高于交汇处以南,判断该处支流水体总磷指数较高,且已对大浦河水质产生显著影响。振华西路西侧有集中的厂房,主要业务为家具建材生产加工,厂区西侧河段总磷指数明显较高,判断厂区有工厂偷排废水,影响了大浦河水质。

4 结论与展望

4.1 结论

针对污染源现状进行调查,根据卫星及无人机反演结果,选取了3个污染相对较高的重点区域进行分析,对其中污染源调查分析结论如下。

①第一处为大浦闸附近河道,位于大浦河、大浦副河及开泰河交界处,分布有3个闸口,以及少量排污口和径流。通过无人机反演结果可以看出,该处疑似污染物沿大浦副河和开泰河流入大浦河,大浦河闸南侧水域受到影响。另外,径流主要存在于农田与河道之间,在雨水的冲刷作用下很容易将农田中的农药、化肥等化学物质带入河流,导致河流的富营养化。对比高分辨卫星影像,大浦副河及开泰河沿岸设有大量工厂。

②第二处为振华西路西侧厂区河道,位于振华西路西侧连云港苏唐家居有限公司、连云港新磷矿化有限责任公司附近水域,河道两侧有少量排污口和径流。通过无人机反演结果可以看出,该处疑似污染物浓度分布较为分散,河道之间均有不同程度的污染物高值存在,主要分布趋势为从排污口、径流处向河道内侧蔓延。浓度最高的区域主要分布于人口密集区及工业企业密集区,可能是城镇生活污水和工业企业污水排放所致。

③第三处为玉带河、大浦河和东盐河岔口附近河道,该处发现有2个闸口和少量径流、排污口。从影像高浓度悬浮物扩散轨迹分析来看,该处疑似污染物沿玉带河、东盐河流入大浦河。闸坝关闭时,两侧的水质失去连续性,玉带河及东盐河疑似污染物浓度较高。结合高分辨率影像可以看出,该处为人口密集区,可能为城市生活污水排放所致。

4.2 展望

目前,利用无人机遥感对水域的水质要素反演已经被广泛应用[11],然而由于绝大部分采用的是多光谱传感器,其波段通常仅蓝光、绿光、红光及近红外4个波段,只能很好地反演光敏参数(叶绿素、浊度、TSS等),在反演非光敏参数(NH4+-N、CODMn、TN、TP等)方面存在很大的局限性[12]。本研究基于无人机多光谱遥感技术,利用搭载的高光谱传感器获取了大浦河流域影像数据,对于大浦河水质进行监测,取得了较好的反演效果,为分析污染源情况与水环境问题提供了技术支持。

无人机高光谱技术波段连续性强,光谱分辨率高,可以获取更全面的光谱信息与二维信息,因而可以用来定量反演水质指标。但是受光谱测量中不可避免的某些人为因素及一些自然因素的干扰,需要对光谱数据进行不同方式的转换,以降低信息冗余度及重叠度;同时,需减小背景噪声和系统误差的影响,改善水质参数和光谱数据之间的相关性,进一步增强信噪比,提高模型的预测精度[13]。

本研究采用目前已得到广泛应用的经典机器学习算法MLP进行多光谱反射比数据与水体化学指标的建模。在综合考虑模型的分类精度、收敛性及训练时长的情况下,通过大量重复实验,确定了MLP的最优隐含层结构。最终在K-Fold交叉验证下,氨氮和总磷预测值与实测值的决定系数(R2)高于0.8,平均绝对百分比误差(MAPE)在15%以内。高锰酸盐指数的R2为0.58,原因为其数值范围较小,但总体预测效果理想,MAPE仅为2%左右。因此,本项目训练的MLP表现良好。

目前,利用遥感技术反演水质要素浓度还没有统一的标准模型,不同的水体类型、不同的无人机飞行速度、不同的研究区域、不同的地理位置、不同的季节、使用不同的多光谱传感器及不同的水质样本检测仪器和方法等都会导致光谱反射率信息的差异[14]。本研究由于受到技术、天气、设备、时间等多方面条件的影响,在时间跨度内无法获得更多的数据,得到的反演估算模型只适用于本研究过程及结果。

此外,目前对低空无人机水质遥感研究还存在诸多不足,尽管高光谱影像光谱分辨率很高,但其信噪比较低,本次研究中也未对高光谱数据进行除噪,监测分析结果的准确度受到了一定程度的影响,之后需要进一步深入研究。

猜你喜欢

盐河高锰酸盐反射率
海西盐河古今谈
影响Mini LED板油墨层反射率的因素
近岸水体异源遥感反射率产品的融合方法研究
具有颜色恒常性的光谱反射率重建
从多元函数角度探讨高锰酸盐指数准确度的影响因素
全自动高锰酸盐指数分析仪在水环境监测中的应用
淮安盐河街道强基固本保平安
忆故人
高锰酸盐指数测定中若干问题的探讨
化学腐蚀硅表面结构反射率影响因素的研究*