两种GAM模型对海州湾短吻红舌鳎(Cynoglossus joyneri)资源分布预测效果的比较研究
2020-07-21孙霄张云雷刘笑笑程远纪毓鹏任一平薛莹
孙霄,张云雷,刘笑笑,程远,纪毓鹏,4,任一平,2,4,薛莹,4*
( 1. 中国海洋大学 水产学院,山东 青岛 266003;2. 青岛海洋科学与技术试点国家实验室 海洋渔业科学与食物产出过程功能实验室,山东 青岛 266237;3. 近海(大连)生态发展有限公司,辽宁 大连 116023;4. 海州湾渔业生态系统教育部野外科学观测研究站,山东 青岛 266003)
1 引言
短吻红舌鳎(Cynoglossus joyneri)属于鲽形目(Pleuronectiformes)、舌鳎科(Cynoglossidae)、舌鳎属(Cynoglossus),又称焦氏舌鳎、驹舌、乔氏龙舌鱼等,是亚热带及暖温带浅海底层鱼类,广泛分布于黄海、渤海、东海和南海(南至珠江口附近),日本及朝鲜近海也有分布[1]。近年来由于过度捕捞等因素的影响,导致一些重要经济渔业资源衰退[2],短吻红舌鳎成为目前海州湾的优势鱼种之一,它既是鱼类群落中的优势种[3-6],同时也是海州湾食物网中的关键种类[7]。
GAM模型(Generalized Additive Model, GAM)是研究生物资源量分布的常用方法之一,但是由于解释变量之间常存在较高的相关性,因此会导致这些变量存在较高的多重共线性,从而降低GAM模型的预测性能[8]。主成分分析(Principal Component Analysis,PCA)利用降维的方法,将多个相关变量转换成若干个主成分(Principal Component,PCs),并根据需要选择若干主成分能反映大多数原始信息的统计方法[9]。因此,基于PCA分析得到的PCs,将其作为GAM模型的解释变量,可以消除变量间的共线性,同时能够均衡考虑到所有的重要环境变量。此外,以往的研究多侧重于研究非生物环境因子对物种分布的影响,而忽视了生物因子的重要性。有研究表明,将饵料生物加入解释变量中会提高GAM模型的预测能力[10]。然而,目前将饵料因子加入解释变量,评估GAM模型预测性能的研究较少。
本研究基于2011年及2013-2018年春、秋季在海州湾及其邻近海域的底拖网调查数据,研究该海域短吻红舌鳎的资源分布特征,并将时空、环境、饵料因子作为解释变量,比较了两种GAM模型(普通GAM模型和PCA-GAM模型)对其资源分布的预测效果,以期为今后开展渔业生物空间分布的研究提供新的方法,也为海州湾短吻红舌鳎的科学管理及资源养护提供基础资料。
2 材料与方法
2.1 数据来源
样品采自2011年及2013-2018年春、秋季在海州湾及其邻近海域进行的底拖网调查,采用分层随机取样的方法设计调查站位,调查海域为34°20′~35°40′N,119°20′~121°10′E,根据水深、纬度等因素的差异将调查海域分为5个区域(图1),每个航次随机选取一定的站位进行调查(每10′×10′的方格内设置1个站位)。其中,2011年各航次分别选取24个调查站位,其他年份各航次分别选取18个调查站位。调查船为220 kW单拖渔船,拖速2~3 kn,拖曳时间约1 h,囊网网目为17 mm。在每个调查站位使用CTD同步测量底层温度(Sea Bottom Temperature,SBT)、底层盐度(Sea Bottom Salinity, SBS)、水深等环境数据。样品的采集、处理和分析按照《海洋调查规范》进行。在进行数据分析前对调查数据进行拖速2 kn,拖网时间1 h的标准化处理,采用单位面积内的渔获尾数(ind./km2)作为相对资源丰度。
2.2 GAM模型构建
GAM模型是广义线性模型的半参数化扩展形式,可同时针对不同的变量采取不同的策略建模,例如:可对部分预测因子进行线性拟和,而对其他因子通过光滑函数进行拟和,使得变量间的线性和非线性关系得以很好的展现[11]。普通GAM的构建公式如下:
式中,g为关联函数,s为自然立方样条平滑,ɛ为误差项,Y = ln(y+1),其中y为相对资源丰度,Lat为纬度,Lon为经度,SBT为底层温度,SBS为底层盐度,depth为水深,Xi为饵料因子。根据短吻红舌鳎摄食生态的研究结果[12-16],春季选择戴氏赤虾(Metapenaeopsis dalei)、葛氏长臂虾(Palaemon graviera)和日本鼓虾(Alpheus japonicus)3种优势饵料因子,秋季选择葛氏长臂虾和日本鼓虾两种优势饵料因子。
将原始解释变量数据进行PCA处理后得到主成分,并选取特征值大于1的主成分作为PCA-GAM模型的解释变量,新变量间不存在相关性,PCA-GAM模型的构建如下:
式中,PCi为选取的主成分。
2.3 因子筛选与模型拟合
图1 海州湾及邻近海域调查区域Fig.1 Survey areas in Haizhou Bay and adjacent waters
应用方差膨胀因子(Variance Inflation Factor,VIF)筛选加入模型的解释变量,一般认为>2即存在多重共线性。利用逐步回归法进行因子筛选,最适模型评估利用赤池信息准则(Akaike Information Criterion, AIC)、方差解释率(Percentage of Variance Explained)、残差偏差(Residual)等指标[17]。AIC 的计算公式如下:
式中,K为模型中参数的数量;L为模型中极大似然函数值。
2.4 模型比较
采用交叉验证法对两种GAM模型的预测性能进行比较。即在总数据中随机选取80%的数据作为训练集,剩余的20%做为验证集,来验证模型的预测效果,该过程重复100次。利用线性回归分析法来描述使用训练集模型的观测值(Oi)与预测值(Pi)之间的线性关系[18],回归方程如下:
式中:Oi为实际观测值;Pi为模型预测值;a为斜率,当a越接近1 时,表明模型在预测中的系统偏差越小;b 为截距,当b越接近0 时,表明预测值与观测值有相似的空间特征[19];R2为决定系数,当R2越接近1时,表示回归方程的拟合优度越高。
此外还计算了观测值与预测值之间的均方根误差 (Root Mean Squared Error,RMSE)[17],该公式的表达形式如下:
2.5 资源分布的预测图
基于2011年与2013-2017年数据建立模型,然后应用该模型对2018年海州湾短吻红舌鳎的相对资源密度进行预测,利用Surfer软件进行绘图,根据预测结果比较两种GAM模型预测值与实际调查结果的吻合程度。
上述主成分析、模型的拟合预测及相关交叉验证均由R3.2.5软件完成,其中PCA利用psych包实现,两种GAM均由gam包构建。
3 结果与分析
3.1 解释变量之间的相关性分析
对海州湾春、秋两季各解释变量进行皮尔逊相关性检验(表1,表2),可知春季温度与盐度和水深之间及秋季日本鼓虾与葛氏长臂虾之间都存在极显著的相关性(p<0.01)。利用 VIF检验的结果均在 1~3之间(表3),即春、秋两季所选解释变量均可以加入模型。
3.2 主成分分析
PCA分析结果表明,海州湾春、秋两季均保留前3个主成分,平均累计方差贡献率分别为65%和67%;春季各主成分的方差贡献率分别31%、19%和15%;秋季各主成分的方差贡献率分别为29%、24%和14%。春季PC1中,经度与水深存在很高的正载荷,而水温有很高的负载荷;PC2中戴氏赤虾与葛氏长臂虾存在很高的正载荷;PC3中纬度有很高的正载荷,而经度有很高的负载荷(表4)。
秋季,PC1中纬度、水深存在很高的负载荷,而葛氏长臂虾及日本鼓虾存在很高的正载荷;PC2中经度与水深存在很高的正载荷,而水温有较高的负载荷;PC3中盐度存在很高的负载荷(表4)。
3.3 变量筛选与模型拟合
根据变量筛选结果,春季普通GAM最适模型为ln(y+1)=s(P. gravieri)+s(Lon)+s(Lat)+ɛ,模型中葛氏长臂虾的贡献率最大为45.039%,其次是经度和纬度,分别为10.155%和8.062%(表5)。春季PCA-GAM最适模型为 ln(y+1)=s(PC2)+ɛ,模型中 PC2贡献率为37.287%(表 5)。
表1 海州湾春季各解释变量之间的皮尔逊相关性检验Table1 Pearson correlation test among the interpreted variables in the Haizhou Bay during spring
表2 海州湾秋季各解释变量之间的皮尔逊相关性检验Table2 Pearson correlation test among the interpreted variables during autumn in the Haizhou Bay
表4 海州湾春季和秋季各解释变量的主成分载荷Table4 Main component loads of various explanatory variables during spring and autumn in the Haizhou Bay
秋季普通GAM最适模型为ln(y+1)=s(Lat)+s(P.gravieri)+s(Lon)+s(SBS)+ɛ,模型中纬度有最大的贡献率,为35.034%,其次为经度、盐度和葛氏长臂虾,分别为16.395%、15.170%和11.156%(表5)。PCA-GAM最适模型为ln(y+1)=s(PC1)+s(PC2)+s(PC3)+ɛ,模型中PC1的贡献率最高为39.252%,其次为PC2和PC3,分别为12.585% 和12.449%(表5)。
春、秋两季普通GAM模型的最终累计解释率分别为63.256%、77.755%;PCA-GAM模型的最终累计解释率分别为37.287%、64.286%。
3.4 短吻红舌鳎相对资源量与解释变量的关系
春季,短吻红舌鳎相对资源量随纬度的增加呈现先增加后降低的趋势(图2a);秋季,相对资源量的变化总体随纬度的增加呈现下降趋势(图2A)。春季相对资源量随经度的变化趋势与秋季相似,均随经度的增加先下降,到120.5°E后又继续上升(图2b, 图2B)。
表5 海州湾春季和秋季两种GAM模型拟合结果及各解释变量的重要性Table5 The fitting results of two GAMs and the importance of each explanatory variable
底层盐度是影响秋季短吻红舌鳎相对资源量分布的重要因素,相对资源量随盐度的增加先下降后上升,在盐度达到28之后,又急剧下降(图2C)。
饵料因子中,葛氏长臂虾饵料对春、秋季短吻红舌鳎的相对资源量均有重要影响(图2)。春季,短吻红舌鳎的相对资源量随葛氏长臂虾生物量的增加先上升随后又小幅下降,在生物量达到65 g/km2之后又继续上升(图2c)。秋季,其相对资源量随葛氏长臂虾的增加上升幅度较大,在生物量达到10 g/km2之后变化较平缓(图2D)。
3.5 模型预测效果的比较
两种GAM模型交叉验证的结果表明,春季和秋季PCA-GAM模型的均方根误差分别为2.214、2.216,小于普通GAM模型(2.401和3.171),其斜率及决定系数也都更接近1,截距更接近于 0(图 3,表 6)。同时,春、秋季PCA-GAM模型交叉验证的决定系数R2分别为0.521和0.634,高于普通GAM模型(0.451和0.549)。上述结果均表明,PCA-GAM模型比普通GAM模型具有更优的拟合效果。
图2 海州湾春季和秋季各影响因子与短吻红舌鳎相对资源量之间的关系(a-c. 春季;A-D. 秋季)Fig.2 Effects of factors on C. joyneri relative abundance in regular GAM in Haizhou Bay (a-c. spring; A-D. autumn)
图3 海州湾春季和秋季短吻红舌鳎相对资源丰度预测值与观测值的交叉验证Fig.3 Cross validation between predicted and observed abundance of C. joyneri during spring and autumn in the Haizhou Bay
表6 海州湾春季和秋季两种GAM模型交叉验证结果Table6 Cross-validation results of two GAM models during spring and autumn in the Haizhou Bay
两种GAM模型对2018年春季和秋季海州湾短吻红舌鳎相对资源丰度的预测结果如图4所示。秋季相对资源丰度整体高于春季,且春、秋两季海州湾短吻红舌鳎的分布都呈南高北低的趋势,并与海州湾短吻红舌鳎资源丰度的实际分布大致相符,而且春、秋两季PCA-GAM模型预测的资源丰度与观测值更加吻合(图 4)。
4 讨论
图4 2018年海州湾春、秋季基于普通GAM模型和PCA-GAM模型的短吻红舌鳎相对资源丰度预测值与观测值的叠加图Fig.4 Overlapping maps of prediction and observations of relative abundance of C. joyneri in Haizhou Bay based on regular GAM model and PCA-GAM model during spring and autumn in 2018
本研究发现春、秋两季海州湾短吻红舌鳎资源的分布均呈南高北低、近岸浅水区大于深水区的特征,该分布特征与短吻红舌鳎产卵洄游密切相关。短吻红舌鳎每年1-3月份在深水区越冬,4-10月为繁殖产卵时间[20],春末夏初当海水表层温度水温回升至20℃以上时,开始在近岸10 m以浅海域进行产卵,生殖期其亲鱼适宜水温为24.0~28.0℃,盐度为24.0~29.0,鱼卵与仔鱼的适宜温、盐范围分别为20~29℃和20.0~33.0[21-22]。本研究的调查数据显示,海州湾春、秋季南部近岸水域表层温度范围分别为14.0~18.0℃和18.3~22.1℃,盐度范围分别为29.4~31.8和27.9~30.7,较高的水温利于暖温性鱼类性腺和鱼卵及仔鱼的发育,缩短其发育周期,提高卵子孵化率及仔鱼成活率。春季海州湾南部海域水温回暖较北部早且持续时间长,近岸水域受地表径流、降雨及水团影响大,因此盐度低于北部深水区;此外,其饵料生物,如葛氏长臂虾、日本鼓虾和戴氏赤虾,在近岸浅海水域均有大量分布[23-25],为产卵后的亲鱼提供充足的食物资源。因此,南部近岸水域的生境条件更适宜春季短吻红舌鳎的繁殖。秋季短吻红舌鳎的资源量分布总体也呈现南高北低的趋势,但相较于春季来说,有向北移动的趋势,一方面由于产卵后的亲体陆续进入产卵场附近的深水区索饵,另一方面短吻红舌鳎的仔稚鱼也有向近岸较深水域育幼场索饵洄游的特征[20]。综上所述,海州湾短吻红舌鳎产卵洄游的习性对其分布及集群影响较大。
本研究比较分析了两种GAM模型在研究短吻红舌鳎相对资源量与环境及饵料因子关系方面的效果。研究表明,PCA-GAM模型的表现要优于普通GAM模型,说明PCA降低了解释变量间的相关性,提高了模型的稳定性和预测精度;另一方面,在PCA-GAM模型的解释变量中均包含了具有高正载荷的生物因子主成分,表明饵料因子的加入可以提高模型的预测性能。另外,交叉验证结果显示,加入饵料因子的普通GAM模型预测效果优于仅以环境因子作为变量的普通GAM模型[17],进一步佐证了模型预测精度的提高与饵料因子的加入有关。
由于本研究的资源调查受一定的空间及采样点的限制,模型中响应变量和预测因子之间的关系及物种潜在分布估计可能受到影响[26-27]。普通GAM模型的拟合程度不高,反映出春季的某些重要因子没有被选择在原始解释变量中,在今后研究中应考虑更多与鱼类资源分布关系密切的影响因子。
综上所述,本研究比较了两种GAM模型对海州湾短吻红舌鳎资源分布的预测效果,当解释变量之间存在较高的相关性时,建议使用PCA-GAM模型对物种分布进行预测,但在实际应用中,还应根据数据可获得性、研究对象及实验目的的不同选择合适的模型。同时,生物因子的加入有助于提高模型的预测性能,因此,在以后的研究中建议考虑相关生物因素[10,27-28],旨在深入揭示物种分布与影响因子之间的内在机制。