海州湾及邻近海域金乌贼的空间分布特征及其与环境因子的关系
2024-03-02张云雷逄志伟纪毓鹏徐宾铎张崇良任一平
姜 月 张云雷 逄志伟 纪毓鹏, 徐宾铎, 张崇良, 任一平, 薛 莹,
(1. 中国海洋大学水产学院, 青岛 266003; 2. 国家海洋环境监测中心, 大连 116023; 3. 日照市岚山区海洋与渔业监督监察大队,日照 276800; 4. 海州湾渔业生态系统教育部野外科学观测研究站, 青岛 266003)
物种的空间分布特征及其与环境因子的关系是渔业生态学研究的热点问题之一[1]。鱼类种群的空间分布受其外部或内部的多种控制因素的影响,其中外部控制也称为环境控制, 通常被认为是影响鱼类种群空间分布的主要因素, 包括水文条件、底质类型等因素[2]。因此, 揭示环境因子对鱼类种群空间分布的影响是渔业资源可持续利用的必要条件。物种分布模型(Species distribution model, SDM)是一种利用物种分布区域的环境数据建立的数学模型, 以预测环境条件适合该物种持续存在的空间区域[3]。根据算法规则的不同, SDMs可分为多种,其中, 在渔业中最常用的方法是基于统计学算法的模型, 如GAM、GLM、GAMM模型等[4,5]。
近年来, 随着计算机技术的不断发展, 机器学习算法也逐渐被应用于物种分布的研究和预测。支持向量机(Support vector machine, SVM)是一种具有较强数学理论基础的监督学习算法, 最初只用于处理分类问题, 但随着理论研究的不断深入, 也可以有效地解决回归问题[6], 进而成为SDMs中一种常用的机器学习方法。SVM模型在研究物种分布方面具有很多优点, 如适用于小样本多维度数据、易于识别变量间非线性关系等[6], 在研究和预测物种分布方面有较好表现。例如, Brzozowski等[7]使用多个物种分布模型来揭示有芒灯枝藻(Lychnothamnus barbatus)的潜在分布范围, 结果显示SVM模型的性能优于常用的最大熵模型(MaxEnt)和随机森林模型(Random forest, RF); 李增光等[8]运用SVM和RF两种方法建立了鱼卵分布和预测模型,提高了预测精度。
金乌贼(Sepia esculenta)隶属于软体动物门(Mollusca)、头足纲(Cephalopoda)、鞘亚纲(Coleoidea)、乌贼目(Sepioidea)、乌贼科(Sepiidae)、乌贼属(Sepia)[9], 系广温性洄游种类, 是我国北部沿海地区一种重要的经济头足类动物[10,11]。金乌贼具有生命周期短、繁殖速度快等特点[12]。李嘉泳等[13]将金乌贼在黄渤海全年的生活分为4个时期: 越冬期(12—次年3月)、洄游期(4—5月)、产卵期(5—7月)和幼体洄游期(8—11月)。金乌贼产卵后其幼体生长较为迅速, 活动能力逐渐增强[13]。
海州湾位于黄海中南部, 地处南北气候过渡带,属于开放型海湾, 是黄海海域重要的产卵场、育幼场和索饵场, 渔业资源丰富[14]。但近年来, 受环境污染、过度捕捞和生境破坏等因素的综合作用, 海州湾及附近海域的许多重要经济物种资源都呈现出衰退的趋势[15]。金乌贼作为海州湾的重要经济种类, 具有较高经济价值, 是重要的捕捞对象之一。但目前关于金乌贼的研究多集中于20世纪80年代之前, 且国内外已有的研究多集中在金乌贼的胚胎发育[16,17]、内壳生长[18,19]、生殖和洄游[13,20]、药理药用[21,22]、人工繁育[23]等方面。有关金乌贼空间分布特征的研究较少[24], 亟待开展深入研究。
本研究基于2013—2020年在海州湾及其邻近海域进行的渔业资源和栖息环境综合调查数据, 通过构建机器学习算法的SVM模型, 分析金乌贼的空间分布特征及其与环境因子的关系, 并评估模型的预测性能, 旨在深入解析海州湾金乌贼的空间分布规律, 为其资源的合理利用和科学养护提供参考,为渔业管理策略的制定提供科学依据。
1 材料与方法
1.1 数据来源
样品采自2013—2020年秋季(9—10月份)在海州湾及其邻近海域进行的渔业资源和栖息环境综合调查, 调查海域为34°20′N—35°40′N、119°20′E—121°10′E (图1)。调查方式为分层随机取样, 将调查海域划分为76个经度10′×纬度10′的小区, 再以水域内底质类型、水深等因素的差异为依据, 将76个分区划分为A、B、C、D、E五个区域, 各航次在不同区域中随机选取共18个站位进行调查。各航次的调查船相同, 均为功率为220 kW、拖速为2—3 kn的单拖渔船, 调查网具的网口宽度约25 m, 囊网网目大小为17 mm。资源量数据以拖网时间1h和拖速2 kn进行标准化处理, 得到金乌贼的相对资源量Y(g/h)。环境数据中的水深、底层水温、底层盐度来自CTD同步测定的数据, 离岸距离由经纬度信息计算得到。样品的采集、处理、分析过程及环境数据的测定均按照《海洋调查规范(GB/T 12763.6—2007)》[25]进行。
图1 海州湾及其邻近海域调查区域Fig. 1 Sampling area in Haizhou Bay and adjacent water
1.2 支持向量机模型
支 持 向 量 机(Support vector machine, SVM)的主要原理是在一个复杂的非线性模式多维空间中构建一个最优超平面[26], 该超平面将所有样本单元分为两类, 使两类中最接近的点以尽可能大的距离分开(即分类), 其中分区边界的点称为支持向量, 分区中间的平面称为分离超平面[27]; 或者以最小的经验风险和建模函数的复杂性拟合数据并预测(即回归)。SVM模型将样本单元投射到多维空间的过程需要一个特殊的核函数来实现[28]。本研究在建立SVM模型时选择的核函数为径向基核函数, 与其他核函数(如多项式核函数或Sigmoid核函数等)相比,该函数具有更少的超参数[8]。且该核函数属于一种非线性映射, 能够灵活地识别并有效处理变量之间的非线性关系。由于环境因子对于物种资源密度的影响往往不是线性的, 因此SVM模型的径向基核函数可用于研究金乌贼的空间分布与环境因子之间的关系。
1.3 因子筛选与模型拟合
将金乌贼的相对资源量(Y)转换为ln(Y+1)后作为响应变量, 经查阅相关资料, 初步选择水深、底层水温、底层盐度以及离岸距离共4种环境因子作为解释变量。采用方差膨胀因子(Variance inflation factor, VIF)[29]对4个环境因子进行多重共线性检验,将影响模型拟合的因子剔除, 以避免因模型中的解释变量之间存在的显著相关性而对研究结果产生负面影响。一般情况下, 如则表明变量间存在多重共线性问题。当一个环境因子被剔除后,导致决定系数减少的幅度愈大, 说明该环境因子对金乌贼相对资源量的影响程度愈高。
本研究采用逐步回归[30]的方法构建和拟合模型, 首先将进行初步筛选后的环境因子分别代入模型中, 根据赤池信息准则(Akaike information criterion, AIC)[31], 在AIC最小的模型中再逐步加入其他因子, 直到获得AIC最小的最优模型, 此模型则为拟合效果最好的模型。
AIC计算公式如下:
式中,k为参数的数量,L为似然函数。
1.4 模型效果评估
为了检验SVM模型的预测能力, 本研究通过交叉验证的方法对模型性能进行评估。从全部样品中随机选取75%作为训练数据来建立模型, 剩余25%作为验证数据, 计算预测值与观测值之间的均方根误差RMSE (Root mean squared error), 以及将预测值和观测值进行线性回归得到的决定系数(Coefficient of determination), 该 过 程 重 复 进 行100次, 根据以上指标对模型性能进行评估。
RMSE是通过反映预测值与观测值之间的偏差来体现数据集的离散程度[32]。较低的RMSE则代表模型具有较高的预测准确性。计算公式如下:
式中,n表示观测次数;表示观测值;表示预测值。
式中, SSE表示误差平方和, SST表示总离差平方和。
1.5 空间分布预测
FVCOM (Finite Volume Community Ocean Model)是一种先进的沿海海洋环流模型, 是非结构化网格、有限体积、自由表面、三维原始模型, 因其能够模拟沿海地区复杂的、动态的空间和时间演变的三维地球物理条件而被广泛使用[34]。本研究将FVCOM模拟的环境数据代入已构建的支持向量机模型中, 并利用R软件绘制2013—2020年秋季海州湾金乌贼的空间分布图。
以上构建模型和检验评估模型的过程均通过R-4.2.2软件实现, 其中物种分布模型由“caret”包进行构建和拟合。
2 结果
2.1 影响因子筛选
利用方差膨胀因子对4个环境因子(水深、底层温度、底层盐度和离岸距离)进行多重共线性检验, 其分别为1.77、1.16、1.44和1.67。结果表明, 各环境因子之间不存在多重共线性, 均可加入到模型中。
2.2 模型效果评估
图2 海州湾金乌贼SVM模型的交叉验证结果Fig. 2 Cross-validation results of the SVM model for Sepia esculenta in Haizhou Bay
图3 基于SVM模型的海州湾金乌贼的相对资源量观测值与预测值之间的线性回归分析(100次交叉验证)Fig. 3 Linear regression analysis (100 runs of cross-validation)between observed and predicted relative resource of Sepia esculenta in Haizhou Bay based on SVM model
2.3 环境因子对金乌贼空间分布的影响
图4显示了各影响因子的重要性排序。结果显示, 在本研究构建的模型中, 水深的重要性最高, 底层盐度次之, 底层水温和离岸距离的重要性程度相差不大(图5)。
图4 海州湾金乌贼相对资源量影响因子的重要性排序Fig. 4 Importance ranking of influencing factors on the relative resource of Sepia esculenta
图5 环境因子对海州湾金乌贼相对资源量的影响Fig. 5 Impact of environmental factor on the relative resource of Sepia esculenta in Haizhou Bay
海州湾金乌贼相对资源量随水深、底层盐度、底层水温及离岸距离的变化情况如图5所示。SVM模型分析结果表明, 金乌贼的相对资源量随底层盐度的增大呈明显上升趋势, 在26—32的盐度范围内, 底层盐度的增大对金乌贼的相对资源量具有正效应。在18—26℃内, 金乌贼的相对资源量随底层水温的增大而减小, 底层水温对其相对资源量具有明显的负效应。金乌贼的相对资源量随水深和离岸距离的增大呈现先上升后下降的趋势, 两响应曲线均存在一个峰值点, 所对应的水深在27 m左右, 离岸距离在40 km左右(图5)。
2.4 海州湾金乌贼的空间分布特征
2013—2020年秋季海州湾金乌贼的分布规律表现为, 中部和北部海域丰度较高, 而南部海域丰度较低(图6)。将FVCOM模拟的环境数据代入已构建的支持向量机模型中, 绘制海州湾金乌贼的空间分布图。结果显示, 2013—2020年秋季海州湾金乌贼资源的分布规律大体一致, 呈现东北部海域高,西南部近岸海域低的特点, 在33.9°N—34.3°N、120.2°E—120.8°E的海州湾南部近岸海域内, 存在一个明显的低值区(图7)。其中2018和2020年近岸海域低值区向北扩大, 延伸到海州湾整个沿岸区域,并呈现离岸距离越大, 金乌贼相对资源量越高的趋势。2019年资源量明显增加, 中南部海域资源丰度高于其余年份(图7)。
图6 2013—2020年秋季海州湾金乌贼相对资源量的空间分布图Fig. 6 The spatial distribution of the relative resource of Sepia esculenta during autumn from 2013 to 2020 in Haizhou Bay
3 讨论
3.1 模型分析
近年来, 支持向量机已经成为许多领域广泛使用的机器学习技术。由于其更大的灵活性和非线性学习能力而取得了较好的预测性能, 在回归分类、概率密度估计等领域展现出了广阔的应用前景。随着现代计算机科学的进步, 在研究物种分布与环境因子的关系时, 可供选择的物种分布模型和统计方法种类众多, 如回归树分析(Regression tree analysis)、广义相加模型(Generalized additive model,GAM)和 人 工 神 经 网 络(Artificial neural network,ANN)等, 而选择合适的模型将对物种分布的预测效果产生显著影响。尽管上述方法在各个学科中都有比较广泛的应用, 但面对多维小样本的预测计算时, 运用一般的建立在大样本前提下的统计方法常常会出现过拟合现象[35]。而SVM模型有两个显著优势: (1)在结构风险最小化原则的基础上, 通过最小化函数的VC维(Vapnik-Cheronenkis Dimension)对学习机器的结构风险进行控制, 能够有效抑制模型的过拟合, 提高模型的泛化能力。(2)利用泛函数中的Mercer定理, 找出一种使样本空间内的内积与特征空间内的内积相对应的核函数, 这样就不需要求解非线性映射, 只需要求解内积, 就可以解决多维样本的非线性分类问题[36]。
在本研究中, 金乌贼空间分布的预测所基于的样本是由渔业资源调查采样获得的, 采集的样本数量有限, 而且受外界环境或一些其他不可抗力因素的影响, 调查中也会存在数据缺失的情况。除此之外, 由于各个环境因子对于资源密度的影响往往不是线性的。因此, 相较于其他物种分布模型而言,SVM模型更加适合于此类多维小样本生物的模拟预测, 它可以在物种适应性和复杂性之间找到最合理的途径, 根据有限的样本信息预测物种的空间分布, 并获得较好的预测效果。
3.2 金乌贼空间分布与环境因子的关系
金乌贼为一年生动物, 生命周期短, 生长迅速,产卵群体由补充群体组成, 具有较快的资源更新速度, 且易受环境因子变化的影响[37]。有研究显示,作为浅海性底栖种[38], 金乌贼的生长、繁殖过程直接受到水温的影响, 同时它是广温性洄游种类, 亲体在产卵后会陆续死亡, 翌年产卵群体由经越冬洄游和生殖洄游的性成熟个体组成[39]。其集群、洄游过程也受到水温的影响[13], 进而造成其空间分布和渔获量的变化。SVM模型的拟合结果表明, 18℃是秋季适宜金乌贼生活的水温。
金乌贼是狭盐性海洋生物, 盐度的变化对其生长发育和空间分布会产生显著影响[23]。海洋环境中的温、盐等环境因子对鱼类的集群分布具有重要影响[40]。此外, 由于盐度对营养盐的控制, 也会影响海洋初级生产力, 进而间接导致鱼类种群的数量变动[41]。陈四清等[42]研究显示, 金乌贼幼体在水体中可正常存活的盐度为24—37, 其幼体适宜在较高盐度水体中生存。而本研究中的模型拟合结果显示, 在26—32的盐度内, 金乌贼的相对资源量会随底层盐度的增加而增大, 最适盐度在32左右, 与已有结论相吻合。
海洋生物的资源分布受多种因素的综合影响[43]。水深和离岸距离对于金乌贼栖息分布的影响是间接的, 它们是通过影响温度、光照、盐度、溶解氧等其他环境因子来实现的[44]。由于水深会影响光线的透射度, 所以水深影响着各类生物的垂直分布。此外, 金乌贼有很强的趋光性, 存在明显的昼夜移动现象[45], 因此水深是影响金乌贼空间分布的重要因素。本研究结果表明, 在水深约27 m、离岸距离范约40 km处的栖息环境适宜金乌贼的栖息分布, 这一结论符合金乌贼在浅海底栖生活的特点[38]。
3.3 海州湾金乌贼的空间分布特征
本研究发现, 海州湾金乌贼空间分布规律呈现东部和中北部海域丰度高, 而西南部近岸海域丰度低的特点, 这一结论与海州湾的水深分布特征[15]相一致。海州湾可大致被鲁南深槽分为两个区域, 即海州湾西南近岸海域的苏北浅滩(<20 m)和海州湾东北部的深水区。此外, 由于海州湾受到黄海冷水团的影响, 其东北部深水区域冬季的海水温度高于近海, 是短距离洄游生物的良好越冬场所[15]。结合金乌贼的洄游习性看, 李嘉泳等[13]研究表明, 山东沿岸的金乌贼幼体离岸的主要时间在8月份, 此时幼体自产卵场开始向越冬场洄游, 其越冬场大致位于33°30′N—38°00′N和122°30′E—123°50′E的狭长海区内。因此, 金乌贼多分布于海州湾东北部海域,可能是由于在海域各环境因子的综合作用适宜金乌贼栖息生活。此外, 海州湾东北部海域是良好的越冬场所, 秋季金乌贼自产卵场向东北方向的越冬场洄游, 从而在该海域形成聚集区。本研究还显示2019年秋季海州湾金乌贼资源量显著高于其他年份, 而2018年及2020年低于其他年份, 这可能与该海域的盐度变化有关。从不同年份的环境数据来看, 2019年该海域秋季的底层盐度较其他年份偏高,接近金乌贼生存的最适盐度, 而2018年和2020年该海域秋季平均底层盐度偏低, 导致适宜的栖息地面积减小, 因此导致这两个年份海州湾金乌贼在空间分布及资源密度上与其他年份出现了差异。
本研究初步探明海州湾金乌贼的空间分布特征及其对于环境因子的响应关系, 对于全球气候变化背景下金乌贼资源的科学养护具有理论指导意义。在后续的研究中将从生态系统的角度开展分析, 综合考虑更多因素对金乌贼时空分布的影响,以期进一步提高预测的准确性, 为金乌贼资源的科学养护和增殖放流提供理论支撑。