APP下载

数据挖掘在压载水生物入侵风险评估中的应用

2021-05-04郁百成邹德武任利利

交通运输研究 2021年2期
关键词:条藻磷酸盐肋骨

李 涛,郁百成,邹德武,任利利

(1.交通运输部水运科学研究所,北京 100088;2.浙江省港航管理中心,浙江 杭州 310011;3.衢州市港航管理局,浙江 衢州 324000)

0 引言

近年来,海洋生物入侵防范已成为世界海洋环境治理中的研究热点。港口和航运业的持续发展,造成船舶压载水交换量增加,压载水带来越来越多的外来生物,对近岸海洋生态系统造成了持续而显著的影响[1-4]。据测算,全世界每年交换压载水约120 亿t,90%以上的潜在有害海洋生物通过船舶压载水传播。依据全国船舶自动识别系统(Automatic Identification System,AIS)数据计算,仅天津港2017 年压载水排放量就超过5 000 万t。根据江阴海关多年来对船舶压载水中外来生物的检测结果,我国压载水和沉积物中检测到的有毒有害生物达195 种。而经常在我国海域发现的赤潮物种,如夜光藻、中肋骨条藻、米氏凯伦藻等,均在压载水中被检测出。

国内外对海洋生态环境数据仓库的研究和应用持续升温,开发出了各种数据仓库,如:德国计算机科学研究中心(Fonschangszentrum Informatik,FZI)开发的虚拟欧洲环境数据仓库Coast Base[5];澳大利亚联邦科学与工业研究组织(Common⁃wealth Scientific and Industrial Research Organiza⁃tion,CSIRO)开发的海洋数据仓库[6];美国地质调查局(United States Geological Survey,USGS)针对海洋物种数据建立的NAS(Nonindigenous Aquatic Species)数据库[7];大连海事大学为了满足船舶运输的安全要求,建立了数字海洋空间数据库方案并提出了信息内容和结构设计[8];青岛海洋大学建立了全球极端海面风速预测模型和基于极端海面风速预测的海洋地理信息系统[9]。这些数据库的建设和应用为研究海洋生态环境,查询海洋物种在近海的时空分布及变化情况提供了支持。

数据挖掘是一个知识提取的过程。数据挖掘技术被应用于各领域研究中[10-11],在生态环境领域同样得到了广泛的应用[12-15],例如:美国加利福尼亚大学的Baker 等人针对海洋环境信息异构数据构建了灵活的信息系统结构[16];日本东京国家情报学院采用了数据挖掘技术进行大数据分析以预报台风[17];美国密西西比州立大学的Wooley等人采用分类分析和聚类分析方法对海洋数据进行挖掘研究[18];美国麻省理工学院的Guo 等人采用海洋数据的特征抽取和可视化技术进行海洋环境分析[19]。目前国内外针对生物入侵的大数据研究主要是利用数据挖掘技术分析影响特定物种入侵行为的主要环境影响因子(如水温、溶解氧、pH 值等)及作用关系[20-21]。而采用数据挖掘技术进行压载水排放引起的海洋生物入侵影响因子的研究较少。

浮游植物的丰度预测模型包括人工神经网络模型[22-23]、多元回归模型[24-25]、基于事例推理的相似预测[26],其中常用的是人工神经网络模型和多元回归模型。根据连接的拓扑结构,人工神经网络模型可以分为前向网络和反馈网络(Back Propagation Neural Network,BP 神经网络)。BP 神经网络将误差前馈,可以缩小误差。研究表明,BP 神经网络模型的准确性高于多元回归模型[27]。所以,本文首先采用数据挖掘技术获取海洋生物入侵的影响因素,继而采用BP 神经网络模型进行生物丰度预测。

中肋骨条藻是我国沿海较为常见的广温广盐浮游植物,也是常见的赤潮藻种。本文以中肋骨条藻为例建立生物丰度预测模型,通过在模型中输入环境影响因子监测结果来计算中肋骨条藻的增殖扩散风险。赵行行等人[28]的研究结果表明,影响中肋骨条藻生长的关键环境因子为水温、硅酸盐和磷酸盐,此外化学需氧量(Chemical Oxy⁃gen Demand,COD)、pH 值、透明度及盐度等环境因子也对中肋骨条藻的生长有重要影响。宋娅婷等人[29]的研究也表明温度、光照和磷酸盐及其交互作用对中肋骨条藻的生长有显著影响。根据《近岸海域环境监测技术规范》(HJ 442—2020)[30]的要求,水质监测频次一般为每年3 次,采样时间分别为3 月—5 月、7 月—8 月 和9 月—11 月。《海水水质标准》(GB 3097—1997)[31]规定,水质监测指标包含水温、盐度、pH 值、溶解氧、COD、生化需氧量(Biochemical Oxygen Demand,BOD)、无机氮、磷酸盐、悬浮物等参数。天津港建港时间长,拥有长期的监测数据,港区和监测站围绕渤海分布密集,有利于针对监测数据的挖掘分析。本文收集了天津港2005—2017年海域监测获得的水质与生物指标数据,用聚类分析[32-34]和关联分析[35-36]等数据挖掘算法[37]分析港口水域生物指标与港口水域水质环境指标的潜在相关性;然后以中肋骨条藻为例建立海洋生物丰度的BP 预测模型,以解决港口水域的浮游植物生物入侵风险评估这一关键技术难题。

1 港口水域水质生物指标数据概况

本文收集整理了2005—2017年在天津港海域28 次监测的共计210 个监测站位的数据,监测项目为水质、沉积物和生物,并利用这些数据建立港口生态环境数据仓库。港口生态环境数据仓库指标主要包括:采样时间、生物多样性指数、生物均匀度指数、站位优势度、生物丰度、水温、盐度、悬浮物、溶解氧、pH 值、COD、无机氨、磷酸盐等影响因子。

2 模型构建

2.1 建立港口生态环境关联模型

海洋生物的生长与环境影响因子直接相关。本文关注的重点是与港口水域海洋生物的生态特征有关的属性。本文对港口水域水质生物指标进行梳理,采用第三范式(Third Normal Form,3rd NF)[38-39]建模,根据各属性的对应关系,提出并明确关系数据库中数据的存取方法和存储结构,建立了包括港口水质信息、港口水质采样站位信息、港口信息、监测站信息等10个数据表结构的数据逻辑模型。基于数据逻辑模型建立的港口生态环境数据库物理模型如图1所示。

为了分析港口生态环境影响因子的关联性,本文对港口生态环境影响因子进行关联分析。采用K均值聚类算法[40]对定量属性进行离散处理。生物多样性指数、生物均匀度指数、站位优势度、生物丰度的聚类属性集合均为{0,1,2,3},盐度、悬浮物、无机氨、磷酸盐的聚类属性集合为{0,1,2},水温、溶解氧、pH 值、COD 的聚类属性集合为{0,1}。

基于离散处理后的属性值,为明晰港口水域海洋生物指标与时间属性、空间属性及水质指标之间的关联关系,输入限定的最小支持度为0.2、最小的置信度为0.7,计算相应的支持度和隶属度,并根据输入限定的最小支持度和最小置信度计算相关规则。

对样本数据进行挖掘,先后得到频繁1项集、频繁2项集、频繁3项集、频繁4项集。从样本中挖掘出所有的频繁项目后,即可获得相应的关联规则。

根据关联结果,对关联性进行分析。为寻找水质指标、时间属性、空间属性与丰度之间的关系,将丰度作为后件,将水质指标、时间属性、空间属性作为前件,利用上述算法,计算满足条件的规则,其中有指导意义的规则如表1所示。

图1 港口生态环境数据的物理模型

表1 丰度规则列表

以表1中第一条规则为例,该规则的意义为:前件{种群名称=浮游植物,COD=1,磷酸盐=2}出现时,后件{丰度=0}出现的概率为85%,意味着COD 为1、磷酸盐为2 时,浮游植物的丰度有85%的频率取值为0。

从表1 中可以发现:浮游植物在COD 较高、磷酸盐含量适中的环境中丰度低;浮游植物在水温较低时丰度低,置信度为0.83;浮游植物在磷酸盐含量适中的条件下丰度低,置信度为0.81;底栖生物在溶解氧含量较低、无机氮含量较高的理化条件下丰度较高;浮游动物在溶解氧含量较低、悬浮物含量较高时丰度高。以上结果说明,种群类型、磷酸盐、COD、水温与丰度关联性较高。其中,浮游植物在COD 含量较高、磷酸盐含量适中、水温较低时丰度偏低。港口水域生物丰度与该水域的理化指标(水温、盐度、无机氮、磷酸盐、溶解氧、COD)之间具有潜在关联性。

2.2 建立基于BP神经网络的生物丰度预测模型

基于关联性分析结果,采用BP 神经网络模型,建立港口水域浮游植物的丰度与理化指标之间的预测模型。实验环境为Windows10+Py⁃thon3.5+keras2.2.2,在该环境中设计BP神经网络结构,对浮游植物的丰度进行预测。原始数据为监测站点采集到的水温、盐度、无机氮、pH 值、悬浮物、溶解氧、磷酸盐、COD 等理化指标。对采集到的原始数据采用Z-score 数据标准化进行预处理操作,作为BP神经网络的输入层特征。

根据2.1 节的关联性分析结果,COD、水温、盐度、无机氮、磷酸盐、溶解氧对浮游植物丰度影响较大,故将其作为影响丰度的主要初始特征。但是在进行预实验时发现,将上述6 个理化指标作为影响丰度的特征进行BP 网络训练,易出现过拟合现象。经过多轮实验,根据模型的收敛比较结果与预测的均方根误差,最终选择了水温、盐度、无机氮、磷酸盐这4 项作为模型的训练特征。

BP 神经网络输入层包括4 个训练特征,隐藏层设置了8 个神经元,输出层为丰度值。用梯度下降法进行神经网络优化。图2 为本文构建的丰度预测BP模型。

图2 丰度预测BP模型

3 结果分析

本文利用BP 神经网络,以浮游植物中肋骨条藻为例建立外来生物入侵风险预测模型,其生物入侵风险大小以生物的丰度变化来表示。为了确定BP 神经网络中各神经元的权重及阈值,本文以中肋骨条藻的丰度以及水温、盐度、无机盐、磷酸盐的48 组数据作为基础数据进行实验,随机选取其中38 组数据作为训练数据,余下10组作为测试数据,一共训练400epoch。绘制训练集的损失函数与验证集的损失函数(如图3 所示),显示两个函数全部收敛。最终模型训练神经元的权重及阈值结果如表2、表3所示。

图3 损失函数

表2 模型训练输入层神经元的权重及阈值

表3 模型训练隐藏层神经元的权重及阈值

为了检验模型的预测效果,训练后保存模型,对测试集的10组数据进行预测,将预测结果与真实值进行比较,得到如图4 所示的丰度预测值与真实值对比图。

从图4 可以看到,与真实值相比,预测值存在偏大或偏小的情况。对10组数据的偏差进行分析,得到预测值与真实值的均方根误差RMSE 为0.071 5,相对误差绝对值的平均值为14.7%。实验结果表明,BP神经网络对于中肋骨条藻丰度有较好的预测效果。

图4 丰度预测值与真实值对比

本节实验的特征选择主要分两个阶段:第一阶段是基于数据挖掘技术和关联分析方法,找出对浮游植物影响较大的港口水域水质环境指标,包括COD、水温、盐度、无机氮、磷酸盐、溶解氧等共6 项;第二阶段是基于BP 神经网络模型,通过更换多次训练结果证明水温、盐度、无机氮、磷酸盐等特征能更好地表征中肋骨条藻的丰度,同时也减少了过拟合状况。

4 结语

本文运用聚类分析和关联分析的方法,从天津港海域生态环境数据中挖掘出港口水域生物指标与港口水域水质环境指标的相关性和潜在知识;并通过关联性分析,筛选出港口水质环境指标特征,包括水温、盐度、无机氮和磷酸盐;然后通过建立基于BP 神经网络的入侵生物丰度预测模型,以中肋骨条藻为例,根据水温、盐度、无机氮、磷酸盐模拟其丰度,预测值与真实值相差较小,表明BP 神经网络对于中肋骨条藻丰度的预测具有一定的可靠性和准确性,预测效果较好,可以为港口水域的浮游植物丰度变化模拟提供可靠的技术手段。数据挖掘技术和BP 神经网络模型的综合应用,解决了港口水域的浮游植物丰度变化模拟及外来生物入侵风险评估的关键技术难题,可以为指定港口水域的浮游植物丰度变化模拟及生物入侵风险评估提供支持。本文研究结果也可以用来模拟预测其他外来生物入侵的过程和损害程度。另外,外来生物的生长除了与水质、生态等环境因子有关外,还与水的运动有关。因而,更准确地评估压载水生物入侵风险还需要考虑水动力因素,将水动力模型与丰度预测模型耦合。

本文采集的样本量偏小,时空连续性存在不足,还需要进一步收集数据对结果加以验证。同时,在今后的研究中可运用大数据技术对水生物种群的演变过程展开深入分析;本文中的数据挖掘理论及相关模型还有待在实际应用过程中进一步优化。

猜你喜欢

条藻磷酸盐肋骨
中肋骨条藻规模化培养及在中国明对虾育苗中的应用
中肋骨条藻-裸甲藻-双毛纺锤水蚤营养传递的级联效应
不同紫外波段对中肋骨条藻光合生理特性的影响
A close look at Nauru’s ecosystem
AZ91D镁合金磷酸盐转化膜的制备与表征
迷人肋骨
肋骨带外固定加外敷万伤接骨膏治疗单纯性肋骨骨折的临床分析
日安,白天
铜、锌对中肋骨条藻生态毒理研究*
80例肋骨骨折X线及CT诊断体会