呼伦湖2002–2021 年悬浮物浓度数据集
2024-01-11李含含许金朵隗晓琪黄泽晖马荣华
李含含,许金朵,隗晓琪,黄泽晖,马荣华,5*
1.南京信息工程大学,遥感与测绘工程学院,南京 210044
2.中国科学院南京地理与湖泊研究所,湖泊与环境国家重点实验室,南京 210008
3.国家地球系统科学数据中心,湖泊–流域分中心,南京 210008
4.中国科学院大学,北京 100049
5.草原生态安全省部共建协同创新中心,呼和浩特 010021
引 言
湖泊是地表极其重要的水资源,是人类活动与发展的热点区域,为流域工农业发展和人类生活提供稳定而清洁的水源[1],监测湖泊水质变化尤为重要。习近平总书记十分关心内蒙古“一湖两海”(呼伦湖、乌梁素海、岱海)的生态综合治理,而湖泊水质的变化监测为解决“一湖两海”的水质改善和环境质量提高等问题提供数据支撑和科学依据。呼伦湖是内蒙古第一大湖泊,湖泊面积约为2339 km2,同时也是内陆同纬度地带最大的草原型湖泊[2],作为我国北方寒冷干旱地区内陆湖泊的典型代表,在涵养水源、调节气候、防风固沙及维系呼伦贝尔草原生态系统平衡乃至我国北方生态安全屏障等方面发挥着不可替代的作用[3]。
悬浮物浓度作为水色参数三要素之一,影响着水体的光学特性和物质交换,也是环境监测的一项重要指标,在一定程度上能综合反映水体的水质特征和水体化学元素迁移、转化和归宿的特征和规律[4]。高悬浮物浓度会降低水体透明度,限制光在水体中的传输,限制水体浮游生物和沉水植被的生长,影响初级生产力,从而影响湖泊生态环境的变化[5]。因此,对悬浮物浓度进行动态监测具有十分重要的意义。
传统的人工巡测由于时空尺度差且耗费巨大,难以在悬浮物浓度时空监测上发挥有效作用。卫星遥感具有高频率、大范围观测等特点,能够提供同一时刻区域面状水域的遥感影像,因此在水环境监测中有其特有的优势[6]。目前遥感估算悬浮物浓度的算法主要分为两类:经验模型与半分析模型,但针对不同水体类型的湖泊尚未有统一的可用模型[5]。曹志刚等(2016)[7]利用多波段组合建立模型,获得了洪泽湖悬浮物浓度的长期变化;王卷乐等(2016)[8]利用MODIS(Moderate-resolution Imaging Spectroradiometer)数据的多种光谱指数,逐季建立光谱指数与悬浮物浓度的回归关系,继而选择悬浮物浓度的反演模型,反演了鄱阳湖连续多年、季相尺度的悬浮物浓度。近年来,随着计算机科学和人工智能技术的发展,机器学习被广泛应用于悬浮物浓度的遥感反演中[9]。然而,多数研究集中于模型算法的研究,而很少形成长期可供科学界参考和使用的公开数据集。
呼伦湖悬浮物浓度与气候变化、人类活动、水体富营养化等因素相关,悬浮物浓度数据集对呼伦湖大范围水监测与评估、区域研究与生态保护等具有重要意义。本研究利用机器学习模型实现呼伦湖悬浮物浓度的高精度反演,以此为基础,构建长时间、逐年月相尺度的悬浮物数据集。本数据集为掌握呼伦湖悬浮物浓度的总体时空分布、演变特征和驱动力因素提供基础,为我国生态环境调查评估、区域环境管理等提供基础数据。
1 数据采集和处理方法
1.1 实测数据采集和处理
呼伦湖地理坐标介于116°58′–117°48′E,48°33′–49°20′N 之间,是内蒙古第一大湖,湖面呈不规则斜长方形,其湖水主要来源于海拉尔河、克鲁伦河、东部乌尔逊河和东北部新开河。本研究于2016 年8 月采集了均匀分布在呼伦湖的29 个样点(图1),样点位置及实测SPM 如表1。每个样点使用棕色采样瓶(2 L)采集表层至50 cm 水柱内的混合水样,放到装有冰块的保温箱遮光保存,并于当天做过滤处理,后置于冰箱中保存;同时记录测量时的天气、水体透明度、风速、风向、水质状况、采样时间等辅助数据,并使用GPS 记录采样位置[5]。悬浮物浓度的测量使用“称重法”,利用450°C 烘烤过后的47 mm 的GF/F 膜过滤水样,过滤后的膜放至烘箱105°烘烤4 小时,用0.0001 g 精度的天平称重计计算得到总悬浮物浓度[7]。
表1 实测点位置及SPM 浓度Table 1 The location of the measured points and SPM concentrations
图1 呼伦湖采样点分布Figure 1 Distribution of sampling sites in Hulun Lake
1.2 遥感数据下载与处理
1.2.1 MODIS 数据下载
以MODIS(Terra:1999 年至今;Aqua:2002 年至今)为代表的中分辨率海洋水色传感器被广泛应用于水质及物候监测[1]。MODIS 具有36 个光谱通道,分布在0.4–14 μm 的电磁波谱内,其空间分辨率为1–2 波段为250 m、3–7 波段为500 m 和8–36 波段为1000 m,可以实现一天覆盖全球一次[10]。MODIS 的陆地波段(前7 个波段,光谱范围为443–2130 nm)具有较高的空间分辨率(250–500 m)且在浑浊湖泊不饱和,故使用这7 个波段提取悬浮物浓度[1]。本文选择从美国航空航天局海洋生物学处理组(Ocean Biology Processing Group,OBPG,https://oceandata.gsfc.nasa.gov)的数据网站下载呼伦湖区域2002–2021 年的MODIS Aqua Level-1A(L1A)数据。呼伦湖每年11 月至来年4 月为结冰期,因此只用5 月至10 月的遥感影像来进行处理分析。
1.2.2 数据处理
在SeaDAS 8.1 软件中对下载的MODIS L1A 数据进行再处理,生成Level-1B 数据,然后进行处理以估算反射率。由于常用的水体大气校正算法难以用于内陆湖泊,导致遥感反射率(Rrs)存在较大不确定性,因此选择从传感器的辐射度中去除水汽和臭氧的吸收以及瑞利散射,以生成瑞利校正的反射率(Rrc,公式1)[11]。事实上,Rrc已广泛用于监测湖泊悬浮物浓度[12]。
使用SeaDAS 8.1 中的内部工具,将具有相对较高空间分辨率(250–500 m)的前7 个波段(469–2130 nm)与具有500 m 空间分辨率的最后5 个波段重采样到250 m。采用掩膜处理来去除低质量的Rrc像素。
(1)云掩膜:在海洋水色处理中,默认的云掩膜标志(Rrc(859)>0.027)通常会将浑水等像素误判而排除,造成大量数据丢失,这对呼伦湖效果尤为显著。根据对过去研究的阈值测试,发现Rrc(2130)>0.021 的阈值适合于研究湖泊错误!未找到引用源。,但这样特定的阈值仍会掩盖一些蓝藻浮渣和极端浑浊的水域。
(2)陆地掩膜:呼伦湖水体变动大,每景MODIS 数据根据归一化差异水指数(Normalized Difference Water Index,NDWI)确定湖泊边界,然后利用中国湖泊边界错误!未找到引用源。对提取水体进行进一步筛选。此外还采用浮游藻类指数(floating-algae index FAI)的阈值(即-0.004)来去除蓝藻水华像元干扰。为去除陆地邻近效应,采用了Feng 等(2018)错误!未找到引用源。的方法移除近岸的4 个像素。
1.3 悬浮物浓度反演模型构建
考虑到SPM 存在较大的时空变异性,呼伦湖的实测数据难以独立构建模型,因此本文使用Cao等(2023)[17]的机器学习模型从MODIS Aqua 获取呼伦湖的悬浮物浓度。同时,我们使用前文所述的29 个实测点对该模型在呼伦湖反演的结果进行验证(详见节3 数据质量控制和评估)。简单而言,Cao 等(2023)的模型基于支持向量机所开发,使用全国133 个湖泊采集的903 个样点所构建。模型输入变量包括了Rrc(469), Rrc(555), Rrc(645), Rrc(859) , Rrc(1240)和三个波段比率(Rrc(555)/ Rrc(469),Rrc(645)/ Rrc(555),Rrc(859)/ Rrc(555)),输出变量为SPM 浓度。在模型训练前,输入变量进行标准化,并归一化到0–1 范围;悬浮物浓度亦进行标准化并使用log 函数进行转换。采用网格搜索法来确定支持向量机的参数,最终获得悬浮物反演模型。模型的主要参数如表2 所示。更多的细节参考Cao 等(2023)[17]。
表2 用于估算SPM 的支持向量机回归模型参数Table 2 Hyperparameters for the support vector regression model to estimate SPM
2 数据样本描述
基于上述SPM 反演模型完成2002–2021 年间的呼伦湖悬浮物浓度反演,形成年均浓度分布数据集(图2)和月均浓度分布数据集(图3)。总体上,呼伦湖的悬浮物浓度较高(平均值53.6 mg/L,标准差为7.95 mg/L),表明呼伦湖水体较为浑浊。从空间分布上看,呼伦湖悬浮物浓度西南部比东北部变化明显,最大值、最小值均在西南部。在人类活动、社会因素和自然因素的影响下,在2002年至2021 年期间,悬浮物浓度整体呈先上升后下降的趋势,其中2006–2013 年较高,自2014 年逐步下降。2006 年为补充呼伦湖水量,从海拉尔河引水,外源的输入增加,因此2006–2013 年悬浮物浓度维持较高状态。2014 年以来悬浮物浓度下降与风速的下降和流域的植被恢复有关。
图2 2002–2021 年呼伦湖年均悬浮物浓度空间分布Figure 2 Spatial distribution of annual mean suspended matter concentration in Hulun Lake from 2002 to 2021
图3 2002–2021 年呼伦湖月均悬浮物浓度空间分布Figure 3 Spatial distribution of monthly mean suspended matter concentration in Hulun Lake from 2002 to 2021
在季节上,呼伦湖的悬浮物浓度7 月最低(平均值37.7 mg/L,标准差为6.95 mg/L),10 月最高(平均值74.9 mg/L,标准差为13.20 mg/L),这是因为呼伦湖为浅水湖泊(平均水深为5.7m),风速引起的底泥再悬浮作用是悬浮物浓度季节变化的主要原因[7]。呼伦湖秋季风速较高,因此在9 月和10 月具备较高的浓度。
3 数据质量控制和评估
将MODIS 遥感数据反演的悬浮物浓度与样点实测值进行结果验证,以保证各期模型在遥感数据上应用的有效性。主要采用决定系数(R2)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)验证,计算方法如下。
其中N表示用于计算的数据个数,i代表数据的下标,X和Y则分别代表用于评价的数据变量。
将Cao 等(2023)[17]模型应用于呼伦湖获取SPM 浓度。利用29 个实测点的位置提取SPM,与实测SPM 浓度对比评价模型的精度。结果发现该模型在实测样点的精度较高(R2=0.71,RMSE 为9.6 mg/L,MAPE=16.5%)(图4),在呼伦湖表现较好。鉴于模型在呼伦湖的相对误差低于35%,高于业内对水色产品算法的精度要求错误!未找到引用源。,故可用该模型对呼伦湖悬浮物浓度进行遥感反演估算。虽然本次覆盖了SPM 浓度20–80 mg/L 的范围,具有一定代表性;但是,可能未覆盖其他季节的极端情况,因此未来我们也将增加更多呼伦湖实测数据进一步验证或优化模型。
图4 支持向量机模型精度验证图Figure 4 Accuracy verification diagram of the support vector machine model
4 数据使用方法和建议
本数据集是基于支持向量机和星地同步数据构建的模型反演结果,其精度满足要求。本数据集实体解压后的tif 数据可使用专业的GIS 软件打开和编辑再加工;其时间序列涵盖了2002–2021 年的呼伦湖悬浮物浓度的时空分布信息,可为呼伦湖大范围水监测和评估、生态保护等提供参考与数据支持。
致 谢
感谢美国航空航天局(NASA)提供MODIS 数据和处理支持,感谢湖泊–流域数据中心提供实测数据构建模型。
数据作者分工职责
李含含(1997—),女,河南开封市人,硕士生,研究方向为悬浮物浓度遥感监测。主要承担工作:方案设计与实施,论文撰写,数据处理。
许金朵(1982—),女,江苏省睢宁县人,硕士,工程师,研究方向为数据库建设、数据共享与地理信息系统。主要承担工作:数据准备,数据整理与上传。
隗晓琪(2000—),女,陕西省西安市人,硕士生,研究方向为湖泊固有光学特性的遥感反演。主要承担工作:遥感数据预处理,数据产品质量控制。
黄泽晖(1999—),男,河南省洛阳市人,硕士生,研究方向为湖泊蓝藻水华的遥感监测。主要承担工作:实测数据采集与分析处理。
马荣华(1972—),男,山东临沂市人,博士,研究员,研究领域为湖泊环境遥感、湖泊-流域数据共享。主要承担工作:论文修改完善,数据方法指导。