APP下载

基于启发式Johnson算法优化BP神经网络的水产养殖产量预测模型

2017-12-25李海涛茆毓琦

渔业现代化 2017年6期
关键词:隐层约简水产

李海涛, 茆毓琦

(青岛科技大学信息科学与技术学院,山东 青岛 266061)

基于启发式Johnson算法优化BP神经网络的水产养殖产量预测模型

李海涛, 茆毓琦

(青岛科技大学信息科学与技术学院,山东 青岛 266061)

针对水产养殖产量预测难的现状,提出一种基于启发式Johnson算法优化的反向传播神经网络(BPNN)的产量预测模型。该模型在传统BP神经网络的基础上,针对网络训练时间长、易陷入局部最优的问题,通过启发式Johnson算法降低输入神经元维度,再结合试凑法确定神经网络隐层个数,构建启发式Johnson反向传播神经网络(HJA-BPNN)学习预测模型。实验结果表明,该模型在山东省对虾海水养殖产量预测中,预测的均方根误差小于传统BP神经网络和GM(1,1),且学习效率相比传统BP神经网络有所提升。研究表明,该学习预测模型在大量历史数据的模型构造上有更大的优势,能够缩短建模时间,同时获得良好的预测效果,为水产养殖产量预测提供了一种可行的新方法。

水产养殖产量;预测模型;BP神经网络;Johnson算法

随着水产养殖业的飞速发展,水产养殖方式正进行创新型转变,立体、复合型养殖模式下的水产养殖条件更加复杂;同时,由于自身产业的特点与水产养殖经验性、专业性的要求,水产养殖产量预测面临巨大挑战。科学的水产养殖产量预测可为水产研究人员与养殖工作者预测水产养殖变化趋势,为水产养殖生产调控和养殖产业结构调整提供科学依据,从而在一定程度上促进水产养殖产业可持续发展。经调研,目前科学的水产养殖产量预测方法大多基于线性回归、时间序列,包括:基于灰色单变量GM(1,1) 分析历史产量数据的产量预测模型[1-5];利用马尔科夫状态转移矩阵预判定残差符号,优化波动影响的灰色马尔科夫修正模型[6];基于LS分析方法的产量预测模型[7];采用偏最小二乘回归(PLS)分析建立的机械切片后三文鱼产量预测模型[8];ARIMA产量预测模型[9]。上述模型在一定程度上都可以满足产量预测的精度要求,但需要被研究对象有较强的规律性或线性相关性,对于非平稳序列、相关关系复杂和非线性的水产养殖活动,这些模型存在一定的局限性。

为了解决以上问题,具有良好自学、泛化、容错能力,非时序化、非周期性的动态数据学习模型——BP神经网络被选为水产养殖产量预测的核心,最终建立以BP神经网络为基础,启发式Johnson算法优化的水产养殖产量预测模型,以解决传统神经网络学习效率低、过拟合和隐层缺乏理论指导的问题,同时以山东对虾年产量为实例,检验模型预测效果。

1 数据与方法

1.1 数据选择

以山东对虾海水养殖年产量预测为例。为使结果更加切合实际,数据选择、参考现有水产研究文献[10-11],得出对虾海水养殖产量受气候、生态环境、渔业资源、国家政策、经济条件、生产设施和科技水平等多种自然条件和社会因素的影响,以此为基础建立输入项,最终选定年平均气温(x1)、育苗量(x2)、养殖面积(x3)、专业养殖劳动力(x4)、海洋生产机动渔船年末拥有量(x5)、水产技术推广人数(x6)、损失水产品数量(x7)和灾害经济损失(x8)为初始条件属性,水产养殖产量为决策属性。对虾海水养殖相关数据取自《中国渔业统计年鉴》[12],气象数据来自GHCN/CAMS。

1.2 数据预处理

采用线性归一化对水产养殖要素和产量结果进行数据预处理,并在训练集的选取上囊括最大最小特征值,避免测试集数据越界。将各要素统一到[0,1]区间,减少不同要素取值范围差异过大而导致小数值数据价值被忽略的情况[13]。经过归一化后的每一个特征值对于结果影响效果基本相同,减少了由于数据尺度差异带来的数据倾斜,同时在BP神经网络中,对数据的归一化处理可以提高网络收敛速度。线性归一化公式和还原公式如下:

(1)

x=x′(xmax-xmin)+xmin

(2)

式中:x,x′为归一化前、后的值,即某一个水产养殖要素序列中的值;xmax、xmin分别是该要素序列中的最大、最小值。

1.3 BP神经网络

BP神经网络[14]是一种含有输入、隐含、输出层,以计算机模拟人脑神经和应激行为的多层前馈神经网络计算系统。神经网络可以很好地代替人脑模拟水产养殖要素之间的关系,把I/O问题转化为非线性映射,解决缺乏精确计算公式和先验经验的产量预测问题。BP神经网络算法流程主要分为三个阶段:网络初始化阶段、正向传播阶段和权值更新反向传递阶段。

阶段一:初始化网络权值、阈值;

阶段二:把训练集逐层向目标层传播获得激励响应,最终获得最终输出值:

(3)

xj=f(yi)

(4)

式中:yi为i层所有神经元净输出值,xi、xj是i、j层神经元,i与j节点间的权值和j节点的阈值分别用wij、bj表示,f函数为激励函数。

阶段三:反向传递基于Widrow-Hoff学习规则[15],为取得最小均方差,对误差公式的推导采用梯度下降算法计算误差,然后修改、更新神经元间的权值和阈值,其中输出层误差计算公式与隐层误差计算公式不同:

Ei=Oi(1-Oi)(Ti-Oi)

(5)

Ej=Oj(1-Oj)∑kEkwkj

(6)

式中:Ei、Ej分别为输出、隐层的误差计算公式;Oj、Tj分别是输出、目标值,Ek中的下标k指j下一层中的神经元。根据误差更新网络权值、阈值。

Wij=wif+ηEjOi

(7)

bj=bj+ηEj

(8)

阶段二、三迭代循环,迭代至网络输入对应输出达到目标,整个网络学习过程结束。

1.4 启发式Johnson算法

粗糙集理论[16]是无需人为假设和经验只利用数据本身发现隐含知识、揭示潜在规律的理论方法。由于神经网络的网络结构复杂度直接影响网络学习处理效率,且冗余数据容易造成神经网络的训练过度[17],最终导致训练结果差强人意。一般情况下,有些特征或是可省略因素。为了减少后续神经网络工作的压力、提高效率,本研究将利用粗糙集理论在保证不影响产量预测精度的前提下,约简条件属性以降低输入神经元维数,简化网络,达到提高BP神经网络精度、效率和抑制噪声的效果。

属性约简作为粗糙集理论中核心的数据分析概念,目的是在保持信息系统分类或决策能力不变的前提下删除冗余属性,获得信息系统的分类或决策规则[18]。经调研,本文选取基于可分辨矩阵的启发式算法Johnson算法[19]作为产量影响条件约简的理论方法。该算法分为6步,用R代表其中一个约简,A代表可分辨矩阵的子集,Na为属性ai在A中出现的次数:(1)初始化R、A为空集,初始次数Na=0;(2)计算可分辨矩阵M,A={mij},其中mij≠ø;(3)记录属性ai在A中出现次数Na;(4)记Max(Na)对应的属性为a,R=R∪{a};(5)清除A中包含a属性的子集;(6)重复(3)~(5),直到A=ø。通过不断筛选在可分辨矩阵中出现频率最高的属性确定约简集,某属性出现频率越高,则说明其可分辨性越好,且该方法约简目的明确,可确定唯一约简集。

2 产量预测模型建模

为解决BP神经网络收敛速度慢、网络训练过度等问题。在BP神经网络模型基础上,利用粗糙集精简的输入神经元,在水产养殖产量与影响要素间建模。模型建立过程主要分为3个阶段:输入神经元约简、数据学习、网络调整(图1)。

图1 水产养殖产量预测模型建立过程

根据已知样本数据,通过粗糙集方法过滤多余条件要素,取最简属性作为神经网络输入节点构建神经网络,通过样本数据训练,获得预测网络,经测试、调整,便可用于水产养殖产量预测。具体实施步骤如下:(1)初始化BP神经网络的收敛精度、初始权值、最大迭代次数;(2)训练样本离散化,利用等频离散化算法对样本数据进行等级划分;(3)依次获取可分辨矩阵中出现频率最高属性,最终得出最简条件要素;(4)利用试凑法计算隐层节点个数;(5)确定BP神经网络结构,并进行网络训练;(6)进行网络测试,检查训练是否达到预期精度,若达到预期精度或达到最大迭代次数,停止并获取网络的权值。

3 启发式Johnson反向传播神经网络的产量预测模型应用分析

3.1 输入神经元优化

本例中条件属性为连续属性,而粗糙集只能处理离散化属性,所以先要做离散化预处理,以更好地判断属性间依赖关系和要素价值。经过调研,本文利用等频率离散方法对本文样本数据离散化,属性分为3个等级值,部分论域离散化后的决策表见表1。经等频离散化后的样本利用Johnson’s algorithm对条件属性进行约简,求得最小约简条件属性为育苗量(x2)、养殖面积(x3)、海洋生产机动渔船年末拥有量(x5)、损失水产品数量(x7),条件由原先的8个降至4个,减少了输入维数,降低了后续神经网络训练的复杂度。

表1 离散化的决策表

3.2 神经网络设计

传递函数采用可导Sigmoid型转换函数:

(9)

为提高收敛速度和算法可信度,避免陷入局部最小,本模型加入动态修正项,动态调整连接权值。若权值更新方向与上次的一致,α动量因子起到提高迭代步长的作用,且可以减小误差曲面部分的灵敏度,即加快了收敛速率,同时可有效抑制BP陷入局部最小:

Δwj+1=ηEijx+aΔwj,α∈(0,1)

(10)

式中:Eij为对权重求导后的最小化误差;η为学习速率,帮助获取全局最小;Δwj为上次权值修改量;Δwj+1为本次权值修改量。经过试验,设:η为0.49,α为0.83,目标误差为0.000 1,最大迭代次数为500。

网络输入、输出层神经元数由输入、输出向量维数确定。输入维数即为粗糙集理论约简后的{x2,x3,x5,x7} 4个条件,训练结果即决策属性为水产养殖产量,所以输出神经元为1个。

一个具有无限隐层节点的单隐层BP网络可以实现任意非线性映射[20],所以本研究以单隐层为前提。而隐层节点数对网络性能有很大的影响,节点过多将增加训练时间,同时又可能过拟合;节点不足,容错性又会降低。隐含层节点数的选择目前理论上还没有一种科学的确定方法[21]。本文为了使网络在确保网络效率的同时拟合度达到最优,将把符合经验公式得出的结果,结合试凑法,比较收敛速度和结果误差,以获取最优隐层节点数。通过调研选取以下经验公式来参考隐层节点数:

(1)Kolmogorov定理[22]指出输入神经元个数与隐层神经元个数的线性相关。

Nh=2Ni+1

(11)

(2)该经验公式提出输入、输出神经元个数N0与1~10的常数α可推算出隐节点个数范围。

(12)

(3)高大启归纳出一个初定3层神经网络隐节点数的经验公式,拟合后的简化公式。

(13)

综合以上三式,得隐层神经元试凑范围为3~10,可得出不同个数对应网络性能数据(表2)。

表2不同隐层个数神经元的性能对比

Tab.2 Performance comparison of neurons with different hidden layers

性能345678910均方误差0 0250 0610 0130 0330 0750 0180 0590 060耗时/ms12175321171816

经验公式计算后,根据最小均方误差确定隐层节点个数为5个。经以上过程得出水产养殖产量预测经粗糙集简化后的网络结构为4-5-1。

3.3 预测结果与分析

为检验HJA-BPNN水产养殖预测模型的性能,选取5组检验样本作为测试数据,代入本文训练好的模型进行产量预测。同时与优化前的传统BP网络模型与水产养殖产量预测常用GM(1,1)预测模型进行对比。为了能更加直观地展示预测结果数值与真实值的拟合度,绘制实际产量与两种预测方式计算山东对虾海水养殖产量值的折线图表,结果对比见表3。

表3 不同年份预测结果对比表

为了评估HJA-BPNN神经网络产量预测模型与其他模型,采用均方根误差(RMSE)评估模型性能。均方根误差越小,模型的预测准确率越高,即模型能力越强。误差函数采用均方误差公式:

(14)

同时比较传统BP神经网络和HJA-BPNN产量预测模型在优化学习速度的效果,已验证本文模型可优化传统BP神经网络模型训练的收敛速度。对比结果见表4。

表4各预测模型性能对比

Tab.4 Comparison of various foreeasting models of aquaculture yield

性能本文模型传统BP模型GM(1,1)RMSE0 110 180 26平均耗时/ms9146

与传统BP神经网络模型相比,本文的预测模型输入神经元个数减少一半,网络运算平均耗时更短,且预测模型的均方根误差小于传统BP神经网络模型与灰色模型。由实验结果可知,本文的水产养殖产量模型能在较短时间内获取较高精度的产量预测结果,可以应用到实际产量预测中。

4 结论

利用BP神经网络结合启发式Johnson算法对收集到的水产养殖历史数据进行训练,形成的网络用于水产养殖产量预测,预测结果误差小、耗时低;同时,基于神经网络的数据学习分析框架可应用于水产养殖水质分类检测、鱼病诊断等研究方向,具有一定的扩展性和延伸性,并且经启发式Johnson算法优化后的网络较传统神经网络更加高效,准确度更佳。测试表明,HJA-BPNN神经网络水产养殖产量预测模型是可行的,具有一定推广价值,可满足水产养殖产量预测的基本要求。

[1] LIU Q,XU B D,REN Y P.forecasting of freshwater aquaculture production of Qingdao city by using a grey forecasting model [J]. South China Fisheries Science,2009,5(5):38-43.

[2] DU X W,LIU Q.forecasting of seawater aquaculture production of qingdao city by using the GM(1,1) model and the verhulst model[J].Journal of Zhejiang Ocean University,2011,30(5):420-425.

[3] 李文阁,刘群.内蒙古赤峰市达里湖渔业产量的灰色预测与分析[J].中国海洋大学学报(自然科学版),2011,41(6):30-34.

[4] 黄松钱,王卫民,曾聪,等.基于灰色新陈代谢GM(1,1)模型的中国水产品年总产量的预测[J].中国农学通报,2012,28(17):126-131.

[5] 陈文河,梁振林.广东省海洋捕捞产量灰色预测[J].渔业科学进展,2006,27(5):74-78.

[6] 乔松珊,张建军.基于灰色马尔可夫修正模型的水产品产量预测[J].中国渔业经济,2013,31(1):105-109.

[7] 王连龙,塔莉.湖南水产养殖业生产能力探析[J].安徽农业科学,2011,39(29):17950-17952.

[8] ØRNHOLT J,GUDJNSDTTIR M,NIELSEN M E,et al.Analysis of the production of salmon fillet - forecasting of production yield[J].Journal of Food Engineering,2017,204:80-87.

[9] 屈磊磊,程岩.辽宁省水产品产量的分析与预测[J].辽宁工业大学学报(自然科学版),2015(2):138-140.

[10] AMILHAT E,LORENZEN K,MORALES E J,et al.Fisheries production in Southeast Asian Farmer Managed Aquatic Systems(FMAS): II.Diversity of aquatic resources and management impacts on catch rates.[J].Aquaculture,2009,298(1):57-63.

[11] SUN M,HASSAN S G,LI D.Models for estimating feed intake in aquaculture: A review[J].Computers & Electronics in Agriculture,2016,127:425-438.

[12] 农业部渔业局.中国渔业统计年鉴[M].北京:中国农业出版社,1992-2015.

[13] NEUMAIER A.Solving Ill-Conditioned and Singular Linear Systems: A Tutorial on Regularization[J].Siam Review,1998,40(3):636-666.

[14] RUMELHART D E,HINTON G E,WILLIAMS R J.Learning representations by back-propagating errors[J].Nature,1986,323(6088):533-536.

[15] HINTON G E,NOWLAN S J.The Bootstrap Widrow-Hoff Rule as a Cluster-Formation Algorithm[J].Neural Computation,2014,2(3):355-362.

[16] PAWLAK Z.Rough sets and decision tables[C]// Symposium.DBLP,1985:187-196.

[17] HAGAN M T,DEMUTH H B,BEALE M H.Neural network design[M].Beijing: China Machine Press,2002:5-6.

[18] 黄丽萍.基于粗糙集的属性约简与规则提取[D].厦门:厦门大学,2007.

[19] HU X.Knowledge discovery in databases: an attribute-oriented rough set approach[M].Canada:University of Regina,1996:65-85.

[20] 孙帆,施学勤.基于MATLAB的BP神经网络设计[J].计算机与数字工程,2007,35(8):124-126.

[21] 李军华.云计算及若干数据挖掘算法的MapReduce化研究[D].成都:电子科技大学,2010.

[22] 焦李成.神经网络系统理论[M].西安:西安电子科技大学出版社,1996:46-179.

[23] 丁永生.计算智能:理论、技术与应用[M].北京:科学出版社,2004:285-350.

[24] 高大启.有教师的线性基本函数前向三层神经网络结构研究[J].新能源进展,1997,21(3):31-37.

ForecastingmodelofaquacultureproductionbasedonheuristicjohnsonalgorithmoptimizationandBPneuralnetwork

LIHaitao,MAOYuqi

SchoolofInformationScience&Technology,QingdaoUniversityofScience&Technology,ShandongQingdao266061,China)

In view of the difficulty in forecasting aquaculture production,a forecasting model of aquaculture production based on Heuristic Johnson Algorithm Optimization and BP Neural Network(BPNN)is proposed in this paper,which is based on the traditional BP Neural Network,with the intention to solve the problems of long time network training and easily being trapped into local optimal solution.It uses Hheuristic Johnson Algorithm to reduce input neuron,and the cut-and-try method to determine the number of hidden layers,thus to construct the Heuristic Johnson Back Propagation Neural Network(HJA-BPNN) Forecasting Model of high precision and high efficiency.The forecasting results of shrimp production in Shandong province,by means of the forecasting model showed that the root of mean square error is smaller than that that by means of traditional BP Neural Network and GM(1,1) forecasting method,and the learning efficiency is improved by comparing with the traditional BP neural network.The study showed that this forecasting model has more advantages in the model construction of a large number of historical data,which can shorten the modeling time and achieve good forecasting results so as to provide a new feasible method for forecasting aquaculture production.

aquaculture production;forecasting model;BP Neural Network;Johnson Algorithm

10.3969/j.issn.1007-9580.2017.06.004

2017-09-19

青岛市创新创业领军人才(15-07-03-0030)

李海涛(1978—),男,副教授,硕士生导师,研究方向:智慧水产。E-mail:taohaili@sina.com

TP391.7;S911

A

1007-9580(2017)06-019-06

猜你喜欢

隐层约简水产
基于RTD可编程逻辑门的n变量函数实现算法
一种自适应确定隐层节点数的增量半监督超限学习机算法
搞养殖,我们都看《当代水产》
加油!水产人!
大咖点评:2020年水产动保谁主沉浮?
读懂“水产人十二时辰”,你就懂了水产人的一天
基于RDPSO结构优化的三隐层BP神经网络水质预测模型及应用
代价敏感正则化有限记忆多隐层在线序列极限学习机及图像识别应用
近似边界精度信息熵的属性约简
广义分布保持属性约简研究