APP下载

福建平潭近海赤潮预警模型研究*

2022-08-08苏金洙邹嘉澍苏玉萍张明峰翁蓁洲杨小强

热带海洋学报 2022年4期
关键词:赤潮溶解氧平潭

苏金洙 , 邹嘉澍 苏玉萍 , 张明峰, 翁蓁洲, 杨小强

1. 福建师范大学环境科学与工程学院, 福建 福州 350007;

2. 福建省河湖健康研究中心, 福建 福州 350007;

3. 福建师范大学地理科学学院, 福建 福州 350007;

4. 福州市海洋与渔业技术中心, 福建 福州 350007

赤潮是一种复杂的海洋生态异常现象, 由海洋中某些浮游生物, 包括微藻、原生动物和细菌等暴发性增殖或聚集而产生的生态灾害(Zohdi et al, 2019; 林森杰 等, 2019)。近几十年来, 由于海洋生态环境的恶化, 赤潮等海洋灾害频繁发生, 其带来的危害效应明显加重(Anderson, 2009)。例如, 2002年由于微小原甲藻赤潮, 导致菲律宾 Bolinao 和Anda 海水养殖场所大量的虱目鱼死亡, 造成经济损失 约 5.83 千 万 元 (Azanza et al, 2005; San Diego-McGlone et al, 2008)。根据《中国海洋灾害公报》统计, 2000—2019 年间我国赤潮共计发生1300多起, 累计面积达到21.3 万km2。2012 年5 月, 福建近海海域暴发了严重的米氏凯伦藻赤潮, 其藻细胞数量达107个·L-1, 导致养殖鲍鱼大量死亡, 经济损失达 20.11 亿元, 其中平潭海域经济损失约占31.4%(蓝虹 等, 2014; 苏新红 等, 2017)。赤潮的暴发除了对沿海养殖业造成经济损失外, 有害藻类产生的藻毒素也会危害水生生物, 进而威胁人类健康(陈宝红 等, 2015; Wu et al, 2019)。因此, 有效预警和预报赤潮暴发, 提前做好应急防控工作, 不仅在一定程度上可减少经济损失, 保护海洋生态环境健康, 同时也具有重要的理论和应用价值。

目前, 国际上关于赤潮的预警研究仍处于探索阶段(洛昊 等, 2013; 俞志明 等, 2019)。在赤潮预警模型开发方面, 通常有3 种预警模型: 机理演绎模型、数据驱动归纳模型以及遥感空间模型。演绎模型是基于现有理论、知识和研究经验建立的, 使用户能够模拟特定系统的行为趋势(Recknagel, 1997), 演绎模型较为全面地考虑了赤潮过程中的各影响因素, 对赤潮的生态机理研究更为关注。但赤潮的生消过程受复杂的环境因素影响, 与赤潮暴发的关系尚未明确, 甚至部分影响因素暂未发现或仍处于研究阶段, 以致演绎模型对复杂关系的揭示受限。数据驱动归纳模型是通过统计学方法、相关性分析和机器学习方法从经验数据模式中提取出整体信息, 从而使用户能够预测系统的趋势, 而不是解释系统的行为(Recknagel, 1997; Tian et al, 2017)。但在实际海域监测预警中, 需要不断有实时监测数据输入才能客观、及时反映现实情况, 同时由于该模型是基于历史数据建立的, 故其预测精度不高。随着遥感技术的发展, 尤其是在增加了可监测参数及可搭载方式后, 遥感技术在赤潮预测预报方面得到了广泛应用。有学者将遥感技术与叶绿素a或浮游植物密度作为输出参数的模型相结合(俞志明 等, 2019); Karki 等(2018)基于MODIS 数据建立的数据驱动模型, 可以提前3 天作出预测预报, 但是卫星遥感目前尚无法反演赤潮预警中所需的一些生化因素, 且现有的遥感赤潮提取算法无法实现普遍适用性, 尤其是在人为干扰严重的近岸海域适用性较低。不同类型的预警模型各有利弊, 因此在进行赤潮预警模型研究中, 需要针对特定的研究对象, 分析其赤潮时空特征及理化因素来进行模型构建, 找出与赤潮暴发相关性较高的环境因素, 开发适合特定海域的赤潮预警模型。

本研究以平潭海域为研究对象, 在对水文和气象环境数据的统计分析基础上, 筛选出与赤潮发生相关性较强的环境因子, 以藻类密度作为输出因子, 探索K 最近邻回归模型(K-nearestneighbor, KNN)、随机森林回归模型(random forest, RF)、梯度提升树回归模型(gradient-boosted regression trees, GBRT)以及Bagging 回归模型(bootstrap aggregating, Bagging)这4 种赤潮藻类密度模型的构建, 并以叶绿素a浓度作为输出因子, 构建BP 人工神经网络预警模型, 应用于没有叶绿素a浓度监测数据的海湾, 为实现平潭海域的赤潮防控提供参考。

1 材料与方法

1.1 研究区与采样概况

平潭岛位于福建省东部沿海, 属湿润的海洋性季风气候, 适合养殖鱼类、贝类、藻类和虾蟹类。根据平潭海域赤潮灾害信息统计, 2009—2019 年平潭海域共发生赤潮15 起, 角毛藻、拟菱形藻、圆筛藻、东海原甲藻、夜光藻以及米氏凯伦藻是该海域常见的赤潮原因种。

本研究选择平潭综合实验区所辖海域作为研究对象, 监测站位如图1 所示。出海采样及监测时间为每年的4—10 月, 其中4—6 月是平潭海域赤潮高发期, 每周采样1~2 次; 7—10 月进入赤潮消亡期, 赤潮发生概率较低, 仅在月初和月末进行野外采样。

1.2 数据来源与处理

本研究中, 用于构建模型的平潭海域水质数据来源于福建省海洋环境与渔业资源监测中心提供的2013—2019 年的802 组平潭海洋监测有效样本数据, 模型所用的气象资料来源于中国气象数据网(https://data.cma.cn/)(表1)。其中, 氨氮、硝酸盐-氮、 亚硝酸盐-氮、磷酸盐、硅酸盐、溶解氧饱和度、化学耗氧量这7 个环境参数为2013—2015 年的监测数据。

表1 2013—2019 年平潭海域的环境指标Tab. 1 Environmental data sets of Pingtan coastal area from 2013 to 2019

模型指标包括风速、降水量、日照时数、气温、水温、盐度、pH、溶解氧、表观增氧量(apparent oxygen increase, AOI)、叶绿素a以及浮游植物密度。表观增氧量(AOI)表示在赤潮开始形成之初, 大气中的溶解氧含量与海水中的溶解氧含量达到一种平衡状态(许昆灿 等, 2004)。赤潮暴发时, 浮游植物的光合作用使得海水中的溶解氧增加。表观增氧量的公式为:

式中: DO实测值为海水中溶解氧含量的现场实测值(单位: mg·L-1); DO饱和值为现场水温、盐度条件下的饱和溶解氧(单位: mg·L-1); AOI 的单位为mg·L-1。

关于饱和溶解氧DO饱和值的计算公式, 本研究采用Gammerson 和Robertson 提出的饱和溶解氧经验式, 简称G 氏公式(小沃尔特·J·韦伯, 1980), 即:

式中:Cds为固体溶解物的量(单位: g·L-1);t为水温(单位: ℃)。

数据的归一化处理参考许阳春等(2020), 具体公式如下:

式中:xi为第i个样本值;xi′为第i个数据xi的归一化值;xmin为样本数据中的最小值;xmax为样本数据中的最大值。

1.3 模型介绍

1.3.1 KNN 回归模型

KNN 回归模型是一种懒惰的回归学习模型(赫芬·I·里斯, 2020)。所有的操作均在测试阶段完成, 通过计算每个测试数据与训练数据之间的距离, 选择最接近K的数据, 并输出预测数据的平均值, 模型公式如下:

式中:X为预测输出;yk为第k个预测输出值;K为最邻近数据。

1.3.2 RF 回归模型

随机森林是一种集成学习器, 在这个学习模型中, 每个学习是一个决策树(Breiman, 2001)。当随机森林构建树时, 从随机选择的特征值中选择最佳的 特征值放入树的节点中。当一个实例进入一个随机森林时, 它将进入所有的树, 每棵树都有一个预测, 并返回预测的平均值, 模型公式如下:

式中:F(x)为预测输出;Tb(x)为第b个预测输出值;x为输入数据;B为回归树数量。

1.3.3 GBRT 回归模型

GBRT 回归结合了一种称为boosting 的统计技术, 是对传统决策树方法进行改进的模型。该方法将一组“弱”模型聚集起来, 形成一个单一的“强”共识模型(Lin et al, 2013)。该模型的构建通过每步添加一棵新树来优化预测(Elith et al, 2008)。假设数据为

S= {(xi,yi)|i= 1, …,M}, 其中xi∈RN,yi∈R(R表示实数集,RN表示N维实数集), M 回归树f(xi)的GBRT模型表示公式如下(Zhou et al, 2016):

式中:P(xi)为预测输出;fm(xi)为第m个预测输出值;xi为输入数据;M为回归树数量。

1.3.4 Bagging 回归模型

Bagging 回归模型是一个集合估计器, 它拟合 数据集的随机子集上的每个基本回归器, 然后通过投票或平均来累积它们的单个预测, 从而做出最终预测。该模型通过置换和预测抽取样本, 并通过多数投票机制获得样本(Nabipour et al, 2020)。Bagging 在不进行修剪的情况下构造函数h(x)的多元回归树, 并利用如下公式(Prasad et al, 2006)预测输出g(x)。

式中:g(x)为预测输出;ht(x)为第t个预测输出值;x为输入数据;T为回归树数量。

1.3.5 4 种模型的优缺点

本研究基于以上4 种预警回归模型 (KNN 回归模型、RF 回归模型、GBRT 回归模型和Bagging 回归模型), 以环境数据为样本作为输入端, 藻密度为输出端, 对其输出结果进行精度评价和分析, 最终选取精度最高的模型用于构建平潭综合实验区海域甲藻赤潮预警模型, 4 种模型的优缺点如表2 所示。

表2 以藻类密度作为输出参数的4 种模型的优缺点 Tab. 2 Advantages and disadvantages of four models with algae biomass as output parameter.

1.4 以叶绿素浓度作为输出参数的BP 人工神经网络

BP 神经网络使用梯度下降法来获得最佳权重和阈值。BP 神经网络具有m个输入层和n个输出层, 以及输入层和输出层之间的几个隐含层(Lyu et al, 2019)。当预测精度未达到要求的水平时, 可以通过增加隐含层中的节点数来提高预测精度。设有n个样本(Xk,Yk)(k=1, 2, 3, …,n), 每任一输入值Xk, 其相应输出值为Yk, BP 神经网络的训练过程如图2 所示。

1.5 模型演算

本研究模型对802 组数据随机排序, 从数据集序列中随机选取80%作为模型的训练数据, 其余20%的样本数据作为测试数据(许阳春 等, 2020)。以不同的环境因子指标交叉组合, 作为模型输入参数, 以藻密度作为输出参数, 对赤潮预警模型进行训练和演算。

1.6 模型精度评价

模型评价标准参考 Qin 等(2017)的 ARIMA- DBN 模型的标准均方误差(RMSE)、平均绝对误差(MAE)及可决系数(R2), 公式如下:

各式中:xobs,i为第i个历史数据实测值;xpre,i为第i个模型演算值;xobs为历史数据实测值;xpre为模型演算值;为历史数据实测均值;为模型演算均值;n为样本数量。

1.7 数据处理

本文的数据预处理主要通过Excel 2016 进行规范化, 模型演算所用数据的相关性分析通过SPSS 25.0 统计软件完成, 主成分分析通过Origin 2017完成, 模型的构建及运行环境均在Matlab 2016a 中进行开发。

2 结果与讨论

2.1 模型指标筛选结果分析

赤潮的暴发受各环境因子的综合影响, 因此 对数据进行初步的筛选剔除之后, 将802 组环境参数的各输入指标与藻密度之间的关系进行相关性分析。运用SPSS 25.0 统计软件, 对2013—2019 年平潭海域的藻密度与各环境因子进行Pearson 相关分析, 结果显示藻密度与叶绿素a、气温、AOI、溶解氧、pH 呈极显著的正相关关系, 与风速、海平面气压则呈极显著的负相关关系, 与盐度呈显著的正相关关系(表3)。结合主成分分析结果, 剔除冗余指标, 精简与浮游植物密度强相关的环境因子, 提高模型的演算精度。主成分分析结果表明, 溶解氧、气温、水温、海平面气压与第一主成分密切相关(图3), 分别为-0.463、0.461、0.442、-0.344; 与第二主成分相关的有叶绿素a、AOI、pH 和日照贡, 献率分别为0.466、0.460、0.385、0.282; 风速、降水、盐度在第三主成分中占比较大, 分别为0.569、-0.525、0.416。

表3 平潭海域各指标因子间的Pearson 相关关系 Tab. 3 Pearson correlation between various index factors in the Pingtan costal area

基于以上分析, 筛选出叶绿素a、气温、AOI、溶解氧、pH、风速、海平面气压、降水、日照这9个环境因子。为了减少模型指标的冗余性, 本研究中的表观增氧量(AOI)已涵盖了水文因子中的水温和盐度。将筛选出的环境组合因子通过模型来建模分析, 并对模型预警精度进行评价。

2.2 以藻密度为输出指标的模型演算结果分析

以藻密度作为输出端的4 种模型的部分演算结果如表4 所示, 所列的3 种多指标组合输出结果相对最优, 可决系数均达到较高拟合优度。所有组合在4 种模型演算结果中, MAE 和RMSE 差异不大, 均在0.800~0.900 范围内。

表4 4 种模型的演算结果 Tab. 4 Calculation results of four models

组合1(风速、气温、海平面气压、叶绿素a)指标数量少, 且4 种模型演算结果的R2均大于0.500, 说明组合1 的拟合效果在所有多指标组合中精度最好。相反, 虽然组合2(气温、海平面气压、叶绿素a、AOI)指标数量与组合1 相同, 但组合2 的4 种模型结果的R2均小于0.500, 表明风速是赤潮预警的重要环境指标。风速大小影响水体扰动强弱, 风浪扰动是影响浮游植物生长的重要环境因子之一。李冬 梅等(2010)通过研究分析水体扰动对多种赤潮藻生长的影响, 发现其他环境因子不变的情况下, 扰动是藻类生长的主要影响因子。一定强度的风浪扰动有利于藻华的消逝, 适宜强度的扰动则会促进藻类聚集和生长, 防止藻类沉降到水体底层, 且能够维持水环境中的营养盐浓度(芮政 等, 2019; 张海涵 等, 2022)。陈旭阳等(2018)通过布设在线监测浮标实时监测赤潮数据的变化, 同样发现了风速的减小有利于表层海水中藻类的迅速增殖, 风速增大则有利于赤潮消退。

所有组合中, 组合3(风速、气温、海平面气压、叶绿a、AOI)的指标数量最多, 除KNN 回归模型外, 其他3 种模型的R2均大于0.500, 但小于组合1 模型演算结果的R2。这表明指标信息冗余并不一定有利于模型预警, 适当降低评价指标数量, 筛选最佳的输入指标进行预警, 不仅节省人力物力, 还能提高一定的预测精度。

4 种模型中, 组合1(风速、气温、海平面气压、叶绿素a)在KNN 回归中演算的精度最高,R2为0.624。这表明以风速、气温、海平面气压、叶绿素a组合作为输入端, 藻密度作为输出端时, KKN 回归模型能够达到很好的预测精度。温度不仅是单个藻类增殖的影响因素, 还是浮游植物群落结构演替的重要环境影响因素(苏金洙 等, 2020)。海平面气压对藻类增殖的影响, 目前还未有明确的定论, 但一定的低压条件有利于赤潮藻类的维持(马毅 等, 2008; 赵雪 等, 2009)。叶绿素a浓度是海水中浮游生物密度的表征, 叶绿素a浓度高, 说明海水中浮游植物密度高(陈旭阳 等, 2018)。因此, 以气温、海平面气压、叶绿素a作为模型输入指标, 能在一定程度上表征藻类密度。

2.3 以叶绿素a 浓度为输出因子的赤潮预警模型分析

本研究综合考虑模型的运行成本和特定海域历史数据的特点, 通过BP 神经网络模型构建了以叶 绿素a为输出因子的赤潮预警模型, 用于未布设叶绿素a浮标探头的赤潮频发海域。

模型演算结果如表5 所示, 组合1(气温、日照、溶解氧)和组合2(气温、日照、AOI)的RMSE、MAE 在6 个组合的误差中较大, RMSE 均在0.065μg·L-1以上, MAE均在0.045μg·L-1以下, 且R2较小, 因此排除这2 个组合。组合3(气温、日照、风速)、组合4(气温、日照、降水、溶解氧)、组合5(气温、日照、风速、AOI)和组合6(气温、日照、风速、溶解氧)的RMSE在6 个组合中较小, 均低于0.065μg·L-1, 且MAE 差别不大。这6 个组合的指标中均包含有气温和日照指标。日照强弱会对藻类的光合作用速率产生影响, 这是因为藻类经叶绿素吸收光能, 把二氧化碳和水合成有机物, 同时释放出氧气(赵聪蛟 等, 2020)。因此, 日照能够间接反映叶绿素a的浓度情况。

表5 叶绿素a 作为输出端的部分模型演算结果 Tab. 5 Partial model calculation results with Chl a as output in BP model

组合 5(气温、日照、风速、AOI)的可决系数R2在所有组合中达到最高值(0.651), 且该组合的RMSE=0.062μg·L-1, MAE=0.033μg·L-1, 拟 合 度 较好。本研究的模型演算结果说明, 在没有布设叶绿素a浮标探头的海域, 通过构建BP 神经网络赤潮模型, 以气温、日照、风速等气象数据及AOI 作为 模型输入端, 能够达到较高的叶绿素a浓度预测准确度。

3 主要结论

本研究分析了平潭海域2009—2019 年期间发生赤潮的水文气象环境因素, 优化了输入赤潮预警模型的指标组合。模型演算结果表明, 以藻类密度为模型输出指标, 以风速、气温、海平面气压、叶绿素a组合作为模型输入指标时, 4 种预警模型中以KNN 回归模型的演算精度较高。此外, 本研究构建了以叶绿素a浓度为输出指标, 以气温、日照、风速、AOI 组合为输入指标的BP 神经网络赤潮模型, 应用于没有叶绿素a浓度监测的海域, 演算结果表明该模型有较好的预测精度。在未来的研究中, 可以对模型不断增加新数据训练并检验, 有望用于平潭海域的赤潮预警和防控工作, 并为其他海域的赤潮预警提供参考。

猜你喜欢

赤潮溶解氧平潭
中西太平洋围网黄鳍金枪鱼渔场分布与溶解氧垂直结构的关系
东平湖溶解氧及影响因素分析
人大代表薛玉凤 平潭的美,台胞出了力
浅析水中溶解氧的测定
鱼能否在水以外的液体中生存
平潭映象
受邀登上央视舞台的平潭女孩
平潭石头厝里的“台式创业梦”
揭秘韩国流
征子与引征