基于支持向量机的长江口及其邻近海域叶绿素a浓度预测模型❋
2019-11-21李修竹苏荣国张传松石晓勇
李修竹, 苏荣国❋❋, 张传松, 石晓勇,2
(1.中国海洋大学化学化工学院,山东 青岛 266100; 2.国家海洋局海洋减灾中心, 北京 100194)
随着沿海地区经济的飞速发展,大量工业废水和污染物排放入海,导致近岸海域富营养化严重,赤潮频发。赤潮对生态环境和人类健康造成巨大破坏,打破了海域生态系统平衡,并给水产养殖造成了巨大损失,引起了国内外的广泛关注[1-2]。因此,对水体富营养化进行早期预测很有必要。众所周知,海洋生态系统十分复杂,各因素之间的相互作用及其动态变化过程未被完全知晓,制约了传统的生态水动力模型的发展[3]。
近年来,数据智能技术在预测模型中兴起,主要包括遗传算法[4]、人工神经网络[5]、多项式回归[6]、灰色理论[7]等方法。许多学者运用这些方法对能反映近岸海域富营养化状况的叶绿素a进行预测,并取得了一定成果。其中,BP神经网络(BP-ANN)在叶绿素a浓度预测中运用最广,实例最多。但是神经网络的经验风险最小化是基于样本够多的情况,在处理小样本和多变量数据时,并不能很好的保证模型的泛化能力,存在过拟合现象,即样本数较少时,预测结果不能保证。
支持向量机(SVM)是根据Vapnik[8]建立的统计学理论为基础,遵循结构风险最小化原理建立的一种处理数据方法。该方法通过引用核函数,实现了在小样本、非线性的条件下提高模型预测的准确性,避免了BP-ANN局部最优和收敛时长等问题,弥补了神经网络的不足。
长江口海域生态环境复杂多样[9],随着人类活动的增加,长江口邻近海域富营养化严重,赤潮频发,渔业环境质量下降,严重影响了江苏沿岸经济的发展,因此对该海域进行环境预测技术研究很有必要。叶绿素a是反映海水中藻类生物量的重要指标,也是表征水体富营养化程度的重要指示之一[10]。预测叶绿素a浓度可以为长江口及邻近海域富营养化的监测和管理提供支持。
1 材料与方法
1.1 样品采集与预处理
本文以长江口邻近海域作为研究对象,2015年春季(3月)和夏季(7月)在长江口邻近海域(29°77′N~32°25′N,122°00′E~124°00′E),分别设置了9个断面,60个站位进行现场调查,共采集了172个表层和次表层的海水样品,具体站位分布图见图1。具体采样方法:现场用Niskin采水器根据站位水深进行采水,采水后立即用0.7 μm的GF/F膜过滤,并用马弗炉烧过的锡纸包好冷冻保存,带回实验室测定叶绿素a浓度;过滤后的水样部分装在灼烧后的棕色玻璃瓶(已预先在400 ℃的马弗炉中灼烧4 h)中冷冻保存,用于测定有色溶解有机物(CDOM)的特征吸收系数;另一部分水样冷冻保存于100 mL的聚乙烯瓶中,用于总氮、总磷的测定。
图1 2015年3和7月采样站位示意图Fig.1 Map of sampling station in March and July 2015
1.2 样品的测定
温度(T)、盐度(S)和溶解氧(DO):利用多参数水质仪CTD获得。
TN和TP:采用磷钼蓝法和Cr-Cu还原法获得,即先用含硼酸的碱性过硫酸钾氧化消解海水样品,再用Cr-Cu还原法把氧化后的硝酸盐转化为亚硝酸盐,用重氮-偶氮反应显色测定,无机磷酸盐则采用磷钼蓝法测定。
CDOM的特征吸收系数:采用紫外可见分光光度法测定,测样仪器为岛津UV-2550紫外可见分光光度计,并用5 cm石英比色皿,以Mill-Q水为参比测定过滤水样。
叶绿素a:采用分光光度法获得,先将冷冻的GF/F滤膜放入离心管,并用10 mL 90%的丙酮溶液振荡萃取得到上清液,将上清液置于1 cm比色皿中,用岛津UV-2550紫外可见分光光度计,以丙酮作参比,测定630、647、664、750 nm的其吸光度,再利用Jeffrey-Humphrey的方程计算Chl-a的浓度[11]:
Chl-a(mg·m-3)=[11.85×(A664-A750)-
1.54×(A647-A750)-0.08×(A630-A750)]×
Ve/(L×Vf)。
其中:L为比色皿长度;Ve为萃取液的体积;Vf为过滤水样的体积;A为吸光度。
1.3 研究方法
支持向量机(SVM)的基本思想就是利用核函数将低维输入空间中线性不可分的点映射成高维特征空间中线性可分的点,并通过划分超平面使同类样本之间相似性尽可能的大,即所有的点到分类超平面的距离最大化,达到最大泛化能力[12-13]。
近海海域富营养化是一个多因素耦合、多维度协同作用的结果,关系复杂且具有多维的非线性特征[14-15],此外,叶绿素a浓度与各影响因素之间也存在典型的非线性关系,而支持向量机回归(SVR)就是将实际问题通过非线性映射到高维特征空间,并在高维特征空间构建线性回归,从而得到低维空间的非线性回归效果[16]。支持向量机回归(SVR)模型的样本只有一类,所寻求的最优平面是使所有样本点离超平面的“总偏差”最小,样本点都在两条边界之间,相当于求最大间隔的问题[17]。
支持向量机回归模型与人工神经网络类似,主要包括三个部分:输入层、中间层和输出层,具体模型见图2。
图2 支持向量机模型的输入与输出Fig.2 The inputs and outputs of support vector machine
其中:x1~xn为低维输入向量,即xi=(x1,x2, …,xn);K(xi,x) =〈φ(xi) ·φ(x)〉为核函数,xi为支持向量,φ向高维空间映射的函数[13],通过对应支持向量的拉格朗日系数(β1, β2, …, βn)连接输入向量和核函数就能得到线性组合函数f(x)。
(1)
两个低维空间中的输入向量经过某种变化后计算出其在高维空间中的向量内积值即为核函数,巧妙的避免了向量由低维向高维空间映射时计算复杂的问题。目前支持向量机回归模型常用的核函数有线性核函数、多项式核函数、Sigmoid核函数和径向基核函数(RBF核函数)[18]。与多项式和Sigmoid核函数相比,径向基核函数参数少,更适合非线性映射,且具有较宽的收敛域,计算更为简单,因此,径向基核函数应用更广[18-19]。本文使用径向基核函数,公式如下:
(2)
其中g为核参数。
核函数选定后,需要确定相应的最优惩罚参数c和核参数g,其中c主要表示惩罚系数,即对误差的容忍度,g表示主要影响样本数据子空间分布的复杂程度。最优惩罚参数c和核参数g通常通过K-折交叉验证法(K-fold Cross Validation)得到[20]。具体操作是将数据集平均分为K组,轮流将其中的K-1组做训练,剩余的1组做验证,在给定参数情况下,K次的结果的均值作为对模型的评价指标,对支持向量机回归模型表示为预测值和实际值的均方误差(MSE)。
2 模型的建立
2.1 参数选择及预处理
有色溶解有机物(CDOM)是水体中溶解有机物(DOM)的基本组分,能够影响控制C、N、P等元素的生物地球化学循环和浮游植物进行光合作用[21]。CDOM的特征吸收系数与水体DOM含量及性质、水体浊度等密切相关,是近海海域生态环境监测主要指标的组成部分[22]。水温(T)、盐度(S)、总氮(TN)、总磷(TP)、溶解氧(DO)这些参数是评价海水水质的基本指标,对海洋中藻类产生直接或间接影响,进而影响水体中叶绿素a浓度[23]。因此,本文确定的监测参数包括水温(T)、盐度(S)、总氮(TN)、总磷(TP)、溶解氧(DO)等基本参数和有色溶解有机物(CDOM)特征吸收系数aCDOM(355)和aCDOM(455)。
对获得的172个样品的溶解氧、盐度、温度、TN、TP、aCDOM(355)、aCDOM(455)参数及测得的Chl-a浓度进行统计分析,由表1可知,Chl-a的平均值为1.754 9 μg·L-1,变化范围在0.013 1~18.954 4 μg·L-1之间。其中,长江口附近海域表层和近岸站位所采集的水样中Chl-a浓度较高。长江口近岸海域受陆源输入影响较大,营养物质浓度较高,浮游植物生长旺盛[24]。
表1 各参数数值特征Table 1 The numerical characteristic of each parameter
此外,考虑到数据中各变量存在量纲和数量级的差异,对数据进行了归一化处理以减小数值差异带来的影响[25]。具体处理方法如下:
其中:x′为变量x归一化后的值;xmax和xmin分别是数据的最大值和最小值。
2.2 相关性分析
对支持向量机回归模型的输入变量进行相关性分析,去除不相关或重复变量,对于保证模型的合理性以及提高模型的准确度具有重要意义。本文以叶绿素a浓度作为输出变量,以水温、盐度、总氮(TN)、总磷(TP)、溶解氧和有色溶解有机物(CDOM)特征吸收系数aCDOM(355)、aCDOM(455)作为候选输入变量,分别计算了各输入变量与叶绿素a浓度的Pearson相关系数,结果如表2。
由表2可知,在0.01的显著性水平下,溶解氧(DO)、温度和吸收系数aCDOM(355)、aCDOM(455)与Chl-a都具有显著相关关系,相关系数在-0.204~0.479之间,而盐度和TN与Chl-a在0.05的显著性水平下也呈显著相关关系,其相关系性系数分别为-0.192和0.165,这表明本研究所选取的大多参数与Chl-a之间具有相关性,考虑到TP与其余参数在0.01的显著性水平下有显著相关关系,且TP是海水富营养化监测的基本要素,故最终的输入变量确定为温度、盐度、总氮(TN)、总磷(TP)、溶解氧(DO)以及CDOM的紫外特征吸收系数aCDOM(355)和aCDOM(455)。
表2 输入变量和叶绿素a浓度的Pearson相关系数Table 2 The Pearson correlation coefficient between the input variables and Chl-a
注:**表示P<0.01;*表示P< 0.05。**indicates very significant association;*indicates very significant association.
2.3 支持向量机回归模型的建立
从172个样品中随机抽取112个样品作为训练集,剩余的60个样品作验证集。以CDOM特征吸收系数aCDOM(355)和aCDOM(455)以及温度、盐度、溶解氧等7个参数作为输入变量,以叶绿素a浓度为因变量。
支持向量机回归采用台湾大学林智仁开发设计的LIBSVM-3.1工具包实现,在MATLAB平台下进行建模[26],设置核函数为径向基核函数,相应参数为最优惩罚参数c和核参数g。为确定c和g最佳参数值,将c和g分别取以2为底的指数离散值,代入 K-CV交叉验证的算法中,选取这K个模型中平均验证准确度最大,即平均验证均方根误差(MSE)最小的 那组c、g值作为该模型的参数,该方法被称为“网格寻优法”(GS)。为减少计算量,把c、g的间隔设置大一点,再通过最佳参数位置范围逐渐减小其范围和间隔,进行精细的网格寻优,以此确定最终的参数值。
设置模型参数c∈ {2-10,2-9.5, …,210},g∈ {2-10,2-9.5, …,210},V=10,进行网格寻优搜索,结果如图3所示。
图3 网格寻优搜索结果Fig.3 The optimization results of Grid Search
利用网格寻优搜索方法得到的最佳参数值为:c=11.313 4、g=0.5,得到最佳参数后,核函数为,按该参数进行设置后,输入训练集数据,就能得到最终的叶绿素a浓度预测模型,该支持向量机回归模型的函数可表达为:
模型的性能由可决系数(R2)和均方误差(MSE)决定,R2表示测量值与预测值之间的相关性,R2越接近于1,表示样本的预测值对实测样本的拟合度越好,模型的拟合效果越好[27]。而MSE主要用来表征样本数据之间的变化程度,MSE的数值越小,表明预测模型对实验数据的分析具有越好的精确度[28],该模型的MSE=0.048 7。
2.4 训练和验证结果
将训练集和验证集数据输入上述预测模型中,对输出值进行反归一化,得到模拟的叶绿素a浓度,并将实测叶绿素a浓度值和预测值进行对比,对比结果具体见图4所示。
由图4可知,以7个变量构建的GS-SVR模型所输出的叶绿素a浓度预测值和实测值在变化趋势上大致相同。在训练集中,模拟值和实测值在0.01的显著性水平下,Pearson相关系数为0.886(p<0.01),均方误差MSE为0.024 0;而验证集中,模拟值和实测值在0.01的显著性水平下,Pearson相关系数为0.840(p<0.01),均方误差MSE为0.041 8。Zhang等[29]利用基于主成分分析(PCA)方法的模糊BP神经网络模型预测中国东海近岸海域叶绿素a浓度,预测结果与实测值具有良好一致性,MSE为0.109;Rocha等[30]通过多元线性回归方法预测了巴西帕尔杜河叶绿素a浓度,其预测结果与实测值的Pearson相关系数为0.520;Zheng等[31]利用元胞自动机与支持向量机结合(CA-SVM)建立了渤海湾叶绿素a浓度预测模型,其预测结果与实测值的R2为0.861,均方差MSE为0.190。相较而言,本研究所建立的模型得到的预测值和实测值具有更好的一致性。
图4 实际值与预测值对比Fig.4 Comparison of measured values and predicted values
2.5 输入变量相对重要性评价
根据7个输入变量建立的支持向量机回归预测模型,由w=∑s.v.βiφ(xi)求出各变量权重系数,并得到各输入变量对输出变量的重要性,将权重系数最大的温度赋值100,可以得到各输入参数的相对重要性,具体情况见表3。
表3 输入变量的权重系数和相对重要性Table 3 Input variables in importance according to their weights and standardized weights
由上述表3中的权重系数可知,支持向量机回归预测模型中对叶绿素a浓度预测影响显著的输入变量是温度和CDOM 特征吸收系数aCDOM(355)。海水中的浮游植物通过光合作用进行初级生产,而叶绿素a是浮游植物进行光合作用的重要色素。有研究表明,温度是一切酶促反应的控制因子,水温与浮游植物的初级生产密切相关[32],浮游植物代谢率和光合作用暗反应都取决于水温,当光照充足时,光合作用的速度与温度呈正相关[33]。
除此以外,盐度和溶氧对长江口邻近海域叶绿素a浓度预测模型影响也较大。盐度是反应近岸海域特别是海域陆源输入的常用指标[41],在这些区域盐度与营养盐之间都有较为明显的负相关关系,水系混合影响着营养盐的消长[42]。溶解氧是海洋浮游植物光合作用的产物,也是海洋中影响异养生物活动的主要因素[43],是衡量海水水质的基本参数之一。
3 结语
基于CDOM 特征吸收系数aCDOM(355)和aCDOM(455)以及温度、盐度、溶解氧、TP、TN等5个基本水质参数作为输入变量,利用支持向量机回归(SVR)建立了长江口邻近海域叶绿素a浓度预测模型,预测值与实测值具有较好的一致性,且温度和CDOM 特征吸收系数影响显著,表明该模型能较好的预测长江口邻近海域叶绿素a浓度,可为长江口及邻近海域富营养化监测提供技术支持。