基于主成分和BP神经网络的智利竹筴鱼渔场预报模型研究
2014-06-01汪金涛高峰雷林邹晓荣官文江陈新军
汪金涛,高峰,雷林,邹晓荣,官文江,陈新军
(1.上海海洋大学海洋科学学院,上海 201306;2.大洋渔业资源可持续开发省部共建教育部重点实验室,上海 201306;3.国家远洋渔业工程技术研究中心,上海 201306;4.远洋渔业协同创新中心,上海 201306)
基于主成分和BP神经网络的智利竹筴鱼渔场预报模型研究
汪金涛1,4,高峰1,2,3,4,雷林1,2,3,4,邹晓荣1,2,3,4,官文江1,2,3,4,陈新军1,2,3,4
(1.上海海洋大学海洋科学学院,上海 201306;2.大洋渔业资源可持续开发省部共建教育部重点实验室,上海 201306;3.国家远洋渔业工程技术研究中心,上海 201306;4.远洋渔业协同创新中心,上海 201306)
东南太平洋智利竹筴鱼Trachurusmurphyi是我国大型拖网渔船队的重要捕捞对象。准确预报中心渔场是提高渔业生产能力的重要工作。本文根据2003—2009年我国船队在东南太平洋海域捕捞智利竹筴鱼的渔捞日志数据,结合海洋遥感获得的海表温度(SST)和海面高度(SSH)等海洋环境因子,利用主成分和BP神经网络方法对智利竹筴鱼中心渔场预报模型进行了研究。研究利用主成分分析法(PCA)得到累计贡献率在90%以上样本的主成分,综合考虑模型测试的精度与速度,基于原始样本和经PCA处理后的主成分分别建立了BP模型,其最优BP模型结构分别为5∶10∶1和3∶7∶1。研究结果表明,经PCA处理后的主成分所建立的BP神经网络模型在训练结果和测试结果上均要优于用原始样本建立的BP神经网络模型,两者的预报准确率分别为67%和60%。
东南太平洋;智利竹筴鱼;BP神经网络;主成分分析;渔场预报
1 引言
东南太平洋智利竹筴鱼Trachurusmurphyi是世界上重要的中上层鱼类资源之一,属于大洋性高度洄游性鱼类[1],广泛分布于东南太平洋,其产量一直位居世界单一鱼种的前列[2-3]。准确预报中心渔场是提高渔业生产能力的重要内容。目前,利用海洋环境因子预报智利竹筴鱼渔场已有一些研究。例如,牛明香等[4]利用广义可加模型和案例推理预报智利竹筴鱼中心渔场,崔雪森等[5]利用分类回归树算法预报智利竹筴鱼中心渔场,张衡等[6]利用遥感数据开发了智利竹筴鱼渔场预报系统。据前人研究,用于渔情预报的模型和方法较多,既有基于单一环境因子的渔情预报[7-8],又有基于多环境因子的渔情预报[9-10];在预报方法上,有统计学模型,包括一般的线性模型[11-12]、复杂的分段线性模型[13]、多项式回归[14]、指数回归[15-16]、分位数回归[17]等;也有智能模型,如专家系统、遗传算法、模糊推理等[18-19]。由于近实时遥感数据的缺乏,牛明香等[4]、崔雪森等[5]、张衡等[6]开发的渔情预报模型无法实行近实时的渔情预报工作。本文根据我国大型拖网渔船多年来在东南太平洋捕捞智利竹筴鱼的生产统计数据和近实时的表温、海面高度等遥感环境数据,尝试采用基于主成分分析的BP神经网络模型来建立渔情预报模型,并进行不同输入因子的BP模型优劣比较,为东南太平洋智利竹筴鱼的科学生产提供手段。
2 数据与方法
2.1 数据及其预处理
2.1.1 数据来源
东南太平洋智利竹筴鱼生产统计数据来自上海海洋大学大型拖网技术组,为中国大型拖网渔船上报的捕捞日志,数据包括作业日期、作业位置、作业船数和渔获量,时间为2003—2009年。遥感获得的海表温度数据和海面高度数据来自美国OceanWatch网站(http://oceanwatch.noaa.gov/index.html),空间分辨率为0.25°×0.25°,时间分辨率为月。
2.1.2 数据预处理
(1)CPUE计算
CPUE(Catch per Unit Effort,t/d)为单位捕捞努力量渔获量,作为智利竹筴鱼的资源丰度指标。智利竹筴鱼生产数据按空间分辨率0.25°×0.25°、时间分辨率按月进行统计。计算月平均CPUE,计算公式如下:
式中,CPUE(i,j,m,y)表示m月y年,位置i,j的平均CPUE;C(i,j,m,y)表示m月y年,位置i,j的总产量;E(i,j,m,y)表示m月y年,位置i,j的总的作业船数。
(2)样本组成
按时间、空间将智利竹筴鱼生产数据和遥感环境数据进行匹配组成样本集,其中输入向量为月份、经度、纬度、海表温度、海面高度,输出向量为CPUE。
2.2 建模方法
2.2.1 主成分分析方法
对神经网络而言,输入向量维度过多时,网络结构变得复杂,网络的训练负担加重,学习速度急剧下降;输入向量维度过少时,预测精度又无法达到要求。如果主观选择很有可能包含与输出相关性很小的输入变量,增加了陷入局部极小点的可能性,非但没有提高预测精度,反而降低了神经网络预测的性能。主成分分析(Principle component analysis PCA)是将研究对象的多个相关变量指标化为少数几个不相关变量的一种多元统计方法,且这些不相关的综合变量包含了原变量提供的大部分信息,即对原始多变量数据达到降维的目的[20]。其研究方法见文献[21-23]。
2.2.2 误差反向传播网络
误差反向传播网络(Error Backpropagation Network,BP)属于多层前向神经网络,采用误差反向传播的监督算法,能够学习和存储大量的模式映射关系,已被广泛应用于各个领域[24-25]。
BP算法主要包括学习过程信号的正向传播与误差的反向传播两个过程组成。正向传播时,样本从输入层进入,经隐层激活函数处理,传向输出层,如输出层的实际输出与期望的输出不符合误差要求,则转入误差的反向传播阶段。反向传播是将误差以某种形式通过隐层向输入层逐层反向传播,将误差分摊给各层所有节点,从而获得各层节点的误差信号,此误差信号作为修正的依据。这种信号的正向传播与误差的反向传播是周而复始地进行,权值不断调整,也就是网络学习的过程。此过程一直进行到网络输出的误差减少到可接受的程度或进行到预先设定的学习次数为止。
3 结果
3.1 CPUE分布
由图1可知,5—10月各月CPUE较高,其中7月份CPUE最高,达到了47.13 t/d。1月份CPUE最低,为9.26 t/d。这说明5—10月为捕捞智利竹筴鱼的盛产期,其余各月为生产淡季。各月CPUE的方差与CPUE变化几乎一致(图1)。
图1 2003—2009年智利竹筴鱼月平均CPUE及方差分布Fig.1 CPUE and its variance ofTrachurusmurphyifrom January to December during 2003 to 2009
3.2 作业区分布
图2 2003—2009年1—12月各月智利竹筴鱼CPUE(t/d)空间分布Fig.2 Monthly spatial distribution ofTrachurusmurphyifrom January to December during 2003 to 2009
从图2可看出,生产淡季(1—4月,11—12月)作业次数少(图2),生产旺季(5—10月)作业次数多(见图2)。从纬度分布来看,1—12月份生产作业位置分布相对集中,主要集中在47°~35°S范围(见图2);从经度分布来看,生产旺季作业位置广泛,分布在84°~119°W海域,生产淡季则相对集中,分布在84°~119° W海域。各月中“△”符号出现的次数均较多,这说明大部分CPUE值都在30 t/d以内;除2月外,其余各月中均出现“○”符号,这说明每月都有零产量的作业次数(见图2)。
3.3 PCA处理结果
在Matlab软件中,用PCA方法来提取月份、经度、纬度、海表温度、海面高度5个变量因子的主成分,经过标准化后的相关系数矩阵的特征值、特征向量见表1,各主成分的贡献率、累计贡献率见图3。本文选取前3个主成分,这3个主成分代表原变量因子90%以上的综合信息量,选取的主成分构成见下式:
表1 特征值和特征向量表Tab.1 Eigen values and eigen vectors
图3 变量因子贡献率及累计贡献率Fig.3 The contribution rate and cumulative contribution rate of variables
3.4 模型结构确定、比较与测试结果
BP模型结构的确定主要包括输入层、隐含层、输出层神经元个数的确定。输入层、输出层神经元个数确定以模型应用的实际情况为依据进行确定(见图4);隐藏层神经元个数的确定首先根据文献[26]中的方法确定其个数范围为5~14,然后根据测试均方误差(Mean Squared Error,MSE)综合考虑测试精度与速度确定模型网络结构,得出用原始数据建立的BP模型结构为5∶10∶1,用PCA处理过的数据建立的BP模型结构为3∶7∶1(见图5)。
确定模型结构后,利用原始数据建立的BP模型和经PCA处理后的主成分建立的BP模型进行拟合,结果表明前者的模拟精度为62%,后者为68%,均具有较好的拟合效果,其中,后者模型精度好于前者模型。
同时,利用训练好的BP模型,对2009年智利竹筴鱼中心渔场进行预报和验证,研究结果显示,上述2种模型预报的准确率都在60%以上,经过PCA优化后的模型预报准确率达到67%。
4 讨论与分析
目前,有关东南太平洋智利竹筴鱼的研究多集中在资源和渔场的时空分布变化,对其中心渔场的预报则较少[27-29]。本文利用2003—2009年智利竹筴鱼生产数据和获得的遥感环境数据,建立了预测东南太平洋智利竹筴鱼CPUE空间分布的BP神经网络模型,虽然样本数量多,但经过主成分分析之后再训练BP模型,不但使得模型的规模减小,而且数据所包含的信息相对比较充分,因此网络的训练速度加快,网络的泛化能力反而得到提升。另外,两种方法建立的BP模型所预测的结果及其变化趋势是一致的,这说明用BP神经网络模型预测智利竹筴鱼中心渔场的方法是可行的。
图4 BP模型结构Fig.4 The structure of BP model
图5 不同隐藏层神经元个数下BP模型的MSE比较Fig.5 The MSE of BP models with different nodes in hidden layer
本文虽然利用的海洋环境数据偏少,但均可以近实时地获得,从而使得预报模型能够进行近实时业务化运行,比前人的研究[4-6]更具有实际的应用价值。在预报精度上,本文模型利用有限的近实时环境数据基本上达到了前人研究的预报模型的精度,其最高预报精度达到了67%,相信未来随着遥感技术的发展获得更多的近实时数据可进一步提高模型预报精度。
由公式(2)的主成分分析发现,海表温度SST均有较高的权重,在第一、第二和第三主成分中,其SST的权重分别为0.416 3、0.468 9和0.622 5,而SSH的权重分别为0.515 6、0.089 2和-0.025 5,这说明SST对智利竹筴鱼的栖息地和中心渔场有着重要影响,这一研究与前人研究[2,4-6,27-29]中均选取SST作为重要因子是一致的。
此外,神经网络模型是典型的“黑盒模型”,其权重不具备可解释性。但在生态学研究中,国外已有学者初步总结了几种方法去解释变量与权重的关系,如神经网络解释图法(Neural Interpretation Diagram NID)、Garson算法、灵敏度分析法(Sensitivity analysis)、随机测试法(Randomization test)等[30-31]。今后可尝试使用这些方法解释模型,例如输入变量中的环境因子与输出CPUE关系,不但说明环境因子对渔场预报的重要性,而且也提供了一种解释环境因子与中心渔场关系的方法。
[1] 邹莉瑾,张敏,邹晓荣,等.东南太平洋公海智利竹筴鱼年龄与生长研究[J].上海海洋大学学报,2010,19(1):61-67.
[2] 方宇,邹晓荣,张敏,等.东南太平洋智利竹筴鱼栖息地指数的比较研究[J].海洋渔业,2010,32(2):178-185.
[3] FAO.The state of world fisheries and aquaculture[R].Rome:FAO,1996-2007.
[4] 牛明香,李显森,徐玉成.基于广义可加模型和案例推理的东南太平洋智利竹筴鱼中心渔场预报[J].海洋环境科学,2012,31(1):30-33.
[5] 崔雪森,伍玉梅,张晶,等.基于分类回归树算法的东南太平洋智利竹筴鱼渔场预报[J].中国海洋大学学报(自然科学版),2012,42(7/8):53-59.
[6] 张衡,崔雪森,樊伟.基于遥感数据的智利竹筴鱼渔场预报系统[J].农业工程学报,2012,28(15):140-144.
[7] 陈新军,赵小虎.西南大西洋阿根廷滑柔鱼产量分布与表温关系的初步研究[J].大连水产学院学报,2005,20(3):222-228.
[8] 方舟,陈新军,李建华,等.阿根廷专属经济区内鱿钓渔场分布及其与表温关系[J].上海海洋大学学报,2013,22(1):134-140.
[9] 高峰,陈新军,范江涛,等.西南大西洋阿根廷滑柔鱼中心渔场预报的实现及验证[J].上海海洋大学学报,2011,20(5):754-758.
[10] 陈新军,陆化杰,刘必林,等.利用栖息地指数预测西南大西洋阿根廷滑柔鱼渔场[J].上海海洋大学学报,2012,21(3):431-438.
[11] 王为祥,朱德山.黄海鲐鱼渔业生物学研究:Ⅱ.黄、渤海鲐鱼行动分布与环境关系的研究[J].海洋水产研究,1984(6):59-76.
[12] 韦晟,周彬彬.黄渤海蓝点马鲛短期渔情预报的研究[J].海洋学报,1988,10(2):216-221.
[13] 陈新军,冯波,许柳雄.印度洋大眼金枪鱼栖息地指数研究及其比较[J].中国水产科学,2008,15(2):269-278.
[14] 邵全琴,马巍巍,陈卓奇,等.西北太平洋黑潮路径变化与柔鱼CPUE的关系研究[J].海洋与湖沼,2005,36(2):111-122.
[15] 刘传桢,严隽箕,崔维喜.渤海秋汛对虾数量预报方法的研究[J].水产学报,1981,5(1):65-73.
[16] 陈新军,刘必林,田思泉,等.利用基于表温因子的栖息地模型预测西北太平洋柔鱼(Ommastrephesbartramii)渔场[J].海洋与湖沼,2009,40(6):707-713.
[17] 冯波,田思泉,陈新军.基于分位数回归的西南太平洋阿根廷滑柔鱼栖息地模型研究[J].海洋湖沼通报,2010(1):15-22.
[18] 樊伟,崔雪森,沈新强.渔场渔情分析预报的研究及其进展[J].水产学报,2005,29(5):706-710.
[19] 易倩,陈新军.基于信息增益法选取柔鱼中心渔场的关键水温因子[J].上海海洋大学学报,2012,21(3):425-430.
[20] 梁娜.基于神经网络与主成分分析的组合预测研究[D].武汉:武汉理工大学,2007.
[21] Johnson R A,Wichern D W.Applied Multivariate Statistical Analysis[M].Upper Saddle River,NJ:Prentice Hall,2002.
[22] 何晓群.现代统计分析方法与应用[M].北京:中国人民大学出版社,2007.
[23] 于秀林,任雪松.多元统计分析[M].北京:中国统计出版社,1999.
[24] Benediktsson J A,Swain P H,Ersoy O K.Neural network approaches versus statistical methods in classification of multisource remote sensing data[J].IEEE Transactions on Geoscience and Remote Sensing,1990,28(4):540-552.
[25] Hush D R,Horne B G.Progress in supervised neural networks[J].IEEE Signal Processing Magazine,1993,10(1):8-39.
[26] 刘维群,李元臣.BP网络中隐含层节点优化的研究[J].交通与计算机,2005,23(2):83-86.
[27] 化成君,张衡,樊伟.东南太平洋智利竹筴鱼资源和渔场的时空变化[J].生态学报,2011,31(19):5676-5681.
[28] 张衡,张胜茂.东南太平洋智利竹筴鱼渔场及单位捕捞努力量的时空分布[J].生态学杂志,2011,30(6):1142-1146.
[29] 牛明香,李显森,徐玉成.基于广义可加模型的时空和环境因子对东南太平洋智利竹筴鱼渔场的影响[J].应用生态学报,2010,21(4):1049-1055.
[30] Olden J D,Jackson D A.Illuminating the“black box”:a randomization approach for understanding variable contributions in artificial neural networks[J].Ecological Modelling,2002,154(1):135-150.
[31] Özesmi S L,Özesmi U.An artificial neural network approach to spatial habitat modelling with interspecific interaction[J].Ecological Modelling,1999,116(1):15-31.
Application of BP neural network based on principal component analysis in fishing grounds of chilean jack mackerel (Trachurus murphyi)in the southeast Pacific Ocean
Wang Jintao1,4,Gao Feng1,2,3,4,Lei Lin1,2,3,4,Zou Xiaorong1,2,3,4Guan Wenjiang1,2,3,4,Chen Xinjun1,2,3,4
(1.College of Marine Sciences of Shanghai Ocean University,Shanghai 201306,China;2.The Key Laboratory of Sustainable Exploitation of Oceanic Fisheries Resources,Shanghai Ocean University,Ministry of Education,Shanghai 201306,China 3.National Distant-water Fisheries Engineering Research Center,Shanghai Ocean University,Shanghai 201306,China;4.Collaborative Innovation Center for Distant-water Fisheries,Shanghai 201306,China)
Chilean jack mackerel(Trachurusmurphyi)is an important target species for Chinese factory trawler fleet in the southeast Pacific Ocean,and the accurate forecasting of fishing ground can provide better scientific guidance for fishing operation.In this paper,we built the forecasting models by using the methods of principal component analysis(PCA)and BP neural networks according to the catch data from the logbooks and fishing yield statistics from Chinese factory trawler fleets,the sea surface temperature(SST)and sea surface height(SSH)obtained by satellite remote sensing from 2003 to 2009.Based on the PCA,we got the principal components of different factors.We also determined the two suitable model structures by using the original-samples and PCA-processed-samples combined with the accuracy of models,respectively.It is found that the model used by PCA-processed-samples is better than that model used by original-sampled based on the results of training and test,and their accuracy rates were 67%and 60%respectively.
southeast Pacific;Trachurusmurphyi;BP neural network;principal component analysis;fishing ground forecasting
A
0253-4193(2014)08-0065-07
2013-05-07;
2014-01-11。
国家863计划(2012AA092301);国家发改委产业化专项(2159999);上海市科技创新行动计划(12231203900)和国家科技支撑计划(2013BAD13B01)。
汪金涛(1987-),男,安徽省安庆市人,博士生,研究方向为渔业资源学。E-mail:wangjintao0510@163.com
*通信作者:陈新军(1967-),男,教授。E-mail:xjchen@shou.edu.cn
汪金涛,高峰,雷林,等.基于主成分和BP神经网络的智利竹筴鱼渔场预报模型研究[J].海洋学报,2014,36(8):65—71,
10.3969/j.issn.0253-4193.2014.08.007
Wang Jintao,Gao Feng,Lei Lin,et al.Application of BP neural network based on principal component analysis in fishing grounds of Chilean jack mackerel(Trachurusmurphyi)in the southeast Pacific Ocean[J].Acta Oceanologica Sinica(in Chinese),2014,36(8):65—71,doi:10.3969/j.issn.0253-4193.2014.08.007