利用机器学习算法的海洋渔船捕捞能力影响因素权重分析

2021-09-16孙佳新

农业工程学报 2021年13期

吕超，孙佳新，刘爽

吕超，孙佳新，刘爽※

（上海海洋大学工程学院，上海 201306）

针对传统方法在宏观层面上进行海洋渔船捕捞能力计量分析中，对指标数量要求有限，考虑因素不足、渔船作业数据利用不充分等问题，该研究在分析南海三省2018至2019年间，约20万条海洋渔船捕捞监测数据特征的基础上，提出了基于机器学习算法的单船捕捞能力影响因素权重分析评价模型。首先，利用四分位法、主成分分析法以及数据标准化与独热编码法对原始数据集进行了清洗处理，获得了4万余条可靠数据。进一步，采用机器学习算法，构建了BP神经网络、决策树和随机森林算法分析模型，同时，利用网格搜索和交叉验证结合遍历循环创建6000次生成学习曲线，结果表明随机森林模型的均方误差、平均绝对误差和可决系数均最优，表现最好的一组参数的决定系数达0.951，明显优于另外两种算法模型。最后，基于随机森林算法对各指标进行权重提取，得出本次研究数据集中渔捞监测数据所包含的影响因素权重排序，结果显示，影响渔船捕捞能力的各因素权重依次为：网次产量（50.070%）、pa（功率、总吨和船长降维后的指标）（23.779%）、拖网（包括单拖、双拖以及拖虾网）（9.409%）、网次数量（6.782%）、作业时长（4.578%）、刺网（2.019%）、张网（1.347%）、围网（1.228%）、罩网（0.628%）、杂渔具（0.122%）、钓具（0.022%）、船龄（0.009%）、钢质渔船（0.002%）、玻璃钢渔船（0.002%）和木质渔船（0.002%）。研究结果明晰表征了各因素的影响占比，可为海洋捕捞渔船捕捞能力量化评价与监管、减船转产与更新改造等海洋捕捞业管理提供重要的技术支撑与参考。

渔业；渔船; 机器学习算法；捕捞能力；智慧渔业工程

0 引言

按照国际粮农组织的定义，捕捞能力是“渔船或渔船船队如果充分利用，可在一定时间内生产的鱼数量”，一般以一定时期、相同资源环境下单船或船队捕捞渔获量来衡量渔船或船队的捕捞能力。影响捕捞能力的因素较多，主要有：规格参数，比如尺寸、功率、总吨等；作业类型，比如拖网、围网、刺网等；网具参数，比如网次产量、网目尺寸、网具结构材料等；渔业资源，比如渔期、海域地理等；生产作业参数，比如作业时长、作业环境、网次数量等；捕捞技术及设备，比如船长经验、船载机械设备、探鱼仪器等，还包括船长船员情绪等管理及人为等因素[1]。针对渔船捕捞能力的研究，现有方法是围绕投入与产出之间的技术效率、投入因素利用率等进行量化分析研究，主要研究方法包括：峰值法（Peak To Peak Method，PTP）[2]、随机生产边界法（Stochastic Production Frontiers，SPF）[3]和数据包络分析方法（Data Envelopment Analysis，DEA）[4]。以FAO（Food and Agriculture Organization of the United Nations）推荐的数据包络分析法（C2R模型）为例，方法通常以某区域一定时间内的渔船总数、总功率、总吨和专业捕捞总人数（年捕捞作业超过6个月的职业渔民）等因素作为实际投入指标，以实际捕捞量作为产出指标，计算捕捞能力技术效率以及投入因素利用率等。在此基础上，对各投入因素总量利用度进行逐项分析，并根据利用度高低给出各投入指标削减建议。

Vestergaard等采用DEA-Malmquist模型对丹麦刺网船队捕捞能力利用度展开分析，研究发现，针对鳕鱼捕捞的能力利用度远低于其他鱼种，而导致这一现象的原因是受渔业政策影响，针对其他鱼种的捕捞，船队的可变投入“时间”比鳕鱼船队捕捞高出约27%[5]。张祝利等采用DEA法，通过分析1979年到2016年的《中国渔业统计年鉴》关于近海捕捞投入方向的数据，认为中国政府出台的渔船“双控政策”实施以来受多方面因素影响并未达到预期效果[6]。Tingley等采用DEA-C2R模型和SPF法对船队的技术效率展开对比研究，研究以英吉利海峡船队的固定投入船只数量、总吨和功率等和可变投入作业时间、船员人数作为投入量，以船队捕捞量作为产出量，结果表明，在一些情形下DEA法有着比SPF法更强的适应性[7]。郑奕等采用数据包络分析方法对中国1994年至2005年之间近海海洋捕捞和远洋捕捞能力利用度情况进行了研究，研究发现，中国近海捕捞能力存在严重的过剩情况，最大过剩率已超过50%[8]。饶欣等利用2009年至2014年《中国渔业统计年鉴》的统计数据，通过DEA法，比较研究了中国东海、黄海和南海的捕捞能力情况[9]。Vassdal等采用DEA-BC2模型研究了挪威大西洋鲑鱼捕捞船队2001年至2008年间的能力利用度，研究提出一种以马尔奎莫斯特生产效率指数MPI（Malmquist Productivity Index）作为衡量指标的方法，结果表明2001年至2005年间船队的利用度持续增加，随后出现大幅度下降趋势[10]。Lim等采用DEA-Malmquist模型和SPF法对马来西亚拖网和围网船队中安装回声探测仪对捕捞技术效率的影响，研究表明DEA和SPF法一致认为安装回声探测器的船队的技术效率明显高于未安装的船队，在安装回声探测器的船队中，DEA的计算效率为56.6%，SPF法的计算效率约为71.7%[11]。梁铄等基于中国沿海11省2008年至2011年的近海捕捞数据，采用随机前沿分析法研究多项渔业管控政策对中国近海渔业捕捞技术效率的影响[12]。Asche等采用DEA-Malmquist模型对挪威鲑鱼养殖水产养殖企业的全要素生产效率变化展开研究，研究发现全要素生产效率每年变化约1%～2%，其中技术效率贡献约0.2%～1.2%[13]。Su等以拖网渔业为研究对象，采用DEA法研究了1960年至2010年间，拖网渔船的技术发展对捕捞能力的影响，研究发现，渔具技术的发展推动了捕捞能力的迅速提升，仅1980年至2010年间，拖网渔船捕捞能力就提升了2～3倍[14]。多年来，众多学者利用DEA法作为捕捞能力分析的主要方法，取得了有益成果，然而DEA方法无法求得影响因素权重，同时也存在诸如模型指标数量有限、求解权重无法比较、无法对各指标权重进行全排序、对大量实际监测数据处理能力不足等局限[15]。

综上所述，当前渔船捕捞能力的研究主要考虑渔船功率、总吨、船长以及数量4个指标因素，忽视了其他大部分因素，如衡量网具性能的重要指标网次产量（按照每艘或不同等级渔船某一时期的产量除以各自投网次数计算）、网具类型、生产作业参数等因素。此外，现有研究中，尚不见基于捕捞监测数据，开展海洋机动渔船单船捕捞能力影响的研究。针对上述问题，该研究基于南海三省2018至2019年渔捞监测数据，以监测数据所含字段信息因素为重点，在分析数据特征的基础上，利用机器学习算法，探索研究包含渔船功率、总吨、船长、作业类型、网具参数、船龄、材质等多参数对单船捕捞能力的影响，并计算得出影响因素权重排序，力求全面综合地考察多因素对单船捕捞能力的影响。

1 数据及其处理

1.1 数据及其分析

该研究数据来源于南海三省2018年至2019年间近700艘渔船主要规格参数信息及近20万条捕捞监测数据，数据信息来源于广东省渔业渔船管理监测系统和农业农村部全国渔船动态管理系统。监测数据字段信息所含的因素主要包括：渔获量（kg）、功率（kW）、总吨（t）、船长（m）、船龄（a）、渔船材质、作业方式、网次产量（kg）、作业时长（h）和网次数量等。统计部分不同作业类型渔船渔捞数据信息，展示如表1。表中序号是渔捞监测数据表中对应的数据行数序号，其中部分网次产量值是依据该船近3年在同一区域和时期而得出的经验平均值，为此，渔捞监测数据得到的渔获量并不等于网次产量与网次数量的理论乘积值，渔获量还因资源环境、船长经验等其他因素影响而不同，但本研究基于渔捞监测数据的字段信息而展开，不涵盖的信息因素比如探鱼仪器、渔场资源以及船长经验等不在本研究考虑范围内。从表中观察能够看出较少关系规律，还需基于大量数据样本，充分利用渔捞数据，采用人工智能算法开展自学习推演，以获得更优的结果规律。

表1 部分类型渔船渔捞数据

进一步分析捕捞监测数据，梳理其主要特征：1）数据类型多样。样本数据中既有数字型，也有字符型，数据特征多样，需要将不同数据类型处理成计算机能够识别的类型；2）数据噪声较大。原始数据样本中存在异常值和缺失值，比如大中型渔船一定时间内的渔获量仅为个位数或者部分渔获量字段信息漏填等；3）渔船功率、总吨、船长参数间具有相关性。船长、总吨和功率是渔船主要规格参数，根据经典渔船设计理论算式，3个参数之间存在函数关系[16]，利用统计学中的相关与回归分析理论中的相关系数法，衡量3个参数之间的相关性，结果显示：功率与总吨相关系数为0.836；功率与船长相关系数为0.762；总吨和船长相关系数为0.972。综上对渔捞数据特征分析，在利用算法计算分析之前，需要先进行数据清洗工作。针对数据存在的问题，该研究采用病态数据分析、四分位法、主成分分析法以及标准化和独热编码处理结合的方式对捕捞数据进行清洗处理。

1.1.1 四分位法

针对上述原始数据样本中存在异常值和缺失值问题，通过四分位法对原始数据进行病态数据合并以及异常值的剔除处理。捕捞监测数据受限于渔民对填报数据的重视程度不同，导致所填数据存在较多的异常值，在该研究中统称为“异常点”。异常点在单船捕捞能力影响因素研究中会影响各因素权重的分析判断，为提升研究结果准确性，需要剔除这些异常点。

四分位法是统计学中分析数据特征简单、高效的手段之一[17]。四分位法利用触须（Whisker）上限W和下限W来剔除原始样本集中的异常值，该研究中定义纵向时序矢量X中处于W与W之间的数据点为X正常值，之外的点为X异常值。将渔捞数据集中的全部数据按照渔获量大小顺序依次排列为4等份，处于分割点位置的3个数值就是四分位数，第一、第三分位数分别表示X前25%和后25%数据点的位置所表示的数值。X的四分位间距表示大小处于X中间50%的X（其中，=1，2，3，…，）的集合，四分位间距框的大小整体反应渔捞数据的集中程度。

1.1.2 主成分分析法

自变量在对因变量作解释时，会因为自变量之间高度的相关关系而导致自变量对因变量的解释能力变弱。针对渔捞数据信息中的船长、总吨和功率之间的相关性问题，为降低因素之间相关性，采用主成分分析法（Principal Component Analysis，PCA）对船长、总吨和功率进行降维处理。

计算如下：

设维向量为目标子空间的一个坐标轴方向，称为映射向量，最大化数据映射后的方差，有：

式中tr表示矩阵的迹，是数据协方差矩阵。

1.1.3 独热编码处理

渔船捕捞能力研究是一个复杂系统工程问题，字符型数据的存在是其鲜明的特征，而独热编码在处理这种类型数据问题时具备高效、快捷等特点。独热编码，又称为有效编码，这种方式是使用位寄存器来对个状态进行编码，且每个状态都有独立的寄存器位，在任意时候其中只有一位数据有效，即将同属性但不同类型的字符型数据进行特征数字化处理。利用独热编码技术对离散无序的数据类型进行特征数字化处理，制作成真实标签[19]，如渔船材质（木质）标记为“100”，渔船材质（钢制）标记为“010”，渔船材质（玻璃钢）则标记为“001”，同理将不同作业方式进行标签化处理，如表2中所示4艘渔船的木质与玻璃钢质为0，钢质为1，则表示表中所示渔船的材质是钢质。利用上述方法对渔捞数据进行清洗与标准化处理，基于Python语言环境，形成后续机器学习算法能够识别的标准化数据，清洗后的数据达4万余条，部分数据结果如表2所示。其中由于采用sklear分解时的方法是通过奇异值分解（Singular Value Decomposition，SVD）来实现的，分解后没有进行翻转特征向量符号以强制执行确定性输出操作，为此表2中数据有负号出现，但不影响最终的算法计算结果。

1.2 算法及参数设置

机器学习算法在计算渔船捕捞努力量方面得到了应用[20]，但相对于支持向量机核函数选择上有着较高的要求，该研究数据集样本量大，结构复杂且计算过程耗时漫长，因此支持向量机不是最佳算法选择。随机森林、决策树和BP神经网络算法则不需要选择核函数，却仍具备准确的计算效果，尤其是随机森林与决策树算法比支持向量机更适合处理同时具有字符型和数字型的数据。

表2 部分数据独热编码处理结果

注：表中数据没有进行翻转特征向量符号的数字化处理；“pa”表示船长、总吨、功率主成分分析后的指标。

Note: The data in the table has not been digitized for symbols of flipped eigenvectors；“pa” means index of length and gross tonnage and power of fishing vessels by principal component analysis.

1.2.1 BP神经网络算法

人工神经网络（Artificial Neural Network，ANN）结构十分复杂，类似于一种网络拓扑结构，由无数个人工神经元相互连接而成，是基于生物神经网络处理信息的原理模拟发展而来，形成一种特殊数学抽象表现。BP神经网络被广泛应用于人工智能、数据分析等领域，它的结构主要由三个层面组成，即：输入层、隐含层和输出层[21]。其两层模型结构示意如图1所示。

1.2.2 决策树与随机森林算法

决策树（Decision Tree）是在数据挖掘、统计等领域应用最广泛的技术方法之一，能够表现复杂关系的非线性模型及其特征关系。算法在训练数据样本时，是类似于树枝分叉一般自上而下的经过每一个环节评估特征分割的信息增益，挑出分割数据集最佳特征，接着对分割的全部子问题采用递归处理，而数据样本将被划分到树的各个枝干。依据上述原则，重复操作直到最优结果后停止运算[22]。决策树在训练过程中，特征划分选择的关键在于怎样挑出最佳划分方式，常用的方法有包括：信息增益、增益率和基尼指数。

随机森林是一种基于Bagging和决策树的有监督学习算法，从原始样本集中有放回地随机抽取训练样本，并训练得到单个弱学习器，该弱学习就被称为回归树，并基于此重复上述训练过程，随着训练次数的增加，生产的回归树就构成了随机森林，最终算法会根据所有树的预测结果进行平均化处理，进而得到最终预测值。

算法在训练数据过程中主要采用装袋法（Bagging method）和自助法（Bootstrap method）来实现的，具体的构建步骤如下：

1）使用Bootstrap方法随机有放回地从个原始训练样本中选择(<)个样本，生产个训练子集。

2）使用训练子集训练回归树，在节点上所有的样本特征中随机选择一部分样本特征，依据最小均方差进行回归树的左右子树划分，递归建树直到满足终止条件。

3）重复上述步骤，将多棵回归树组成随机森林。

4）将测试样本输入随机森林回归模型，取所有树预测值的平均值作为最终预测结果，并与实际值对比，评价模型的拟合效果。

1.2.3 随机森林调参

利用捕捞监测数据，基于随机森林建立投入值对产出值的影响关系回归模型。渔船主规格参数（船长、总吨和功率）、网次产量、网次数量、作业方式、作业时间、船龄和渔船材质设为模型的输入（特征参数），渔获量为模型的输出（目标参数）。并将数据样本无序拆分成训练集（70%），测试集（30%）。同时，考虑到参数之间的量化纲差异，采用标准化处理方式进行无量化纲处理。

在随机森林众多的可调参数中，主要有：回归树数目n、最大特征值m、回归最大深度m、内部节点再划分的最小样本数量m和叶子节点最小样本数m等。需要指出的是，若n数量过小则会易造成模型欠拟合，太大则又易造成过拟合；m的作用是限制子树继续划分的条件，当节点的样本量小于m时，划分将停止；m与回归树的剪枝有关，而剪枝有助于模型增强其泛化能力，当m大于叶子节点数时，同枝干上的节点将都被剪枝。为防止过拟合的发生，通常研究不会追求过高的可决系数值，在多次尝试后发现模型的泛化能力较好，且随着m的提升，模型的优度不断提升，因此决定对n、m和m3个参数进行调参，而m不作限制[23]。对n、m和m3个参数进行寻优，给定参数足够的范围n∈[500，1 000]并且n为10的倍数，m∈[1，12]，m∈[1，12]，采用网格搜索与交叉验证结合的方式，让计算遍历循环持续学习，训练出最好的模型，建立了6 000次随机森林模型生成学习曲线，并对表现最好的一组参数进行提取[24]。同步验证不调参与默认值条件下的回归效果。分别评价模型调参前后的训练效果，评价指标为均方误差（Mean Squared Error，MSE）。随机搜索返回的最优参数组合为：n=921，m=10，m=3。

使用随机森林搜索返回的最优参数组合建立随机森林回归模型，并使用训练集对模型进行训练，最后利用测试集测试模型的回归效果。为了验证模型回归的精确性，同时采用BP神经网络、决策树和随机森林算法建立对比回归模型，并引入均方误差MSE、平均绝对误差（Mean Absolute Error，MAE）以及决定系数2作为模型回归效果的评价指标。

2 结果与分析

3种模型测试结果如表3所示。

表3 3种模型调参后的拟合效果对比

通常情况下，有效模型的可决系数2的取值范围默认为[0，1]，2越接近1，表示模型回归效果越好，反之越接近0则越差。由表3可知，经过调参后的随机森林回归模型可决系数2值最大（0.951），调参后模型回归效果有显著提升，且所有回归模型的MAE和MSE均小于默认参数的随机森林回归模型。

进一步，对测试集进行反标准化，绘制3种算法模型的单船投入因素条件下渔获量的预测值与实际渔获量对比图，如图2所示。由于测试集的样本量大，故只截取50组数据进行对比。

由图2可以看出，3种算法建立的回归模型都能反应投入因素与产出渔获量之间的变化关系，基于调参后随机森林算法的回归模型可决系数、均方误差和平均绝对误差均优于其他算法模型。利用随机森林算法计算得出的各影响因素权重值见表4所示。

表4 各因素权重值

通过上述影响因素排序及各自权重的计算结果，一方面可得：1）在现有捕捞监测数据范围内的因素中，网次产量、渔船（总吨、功率和船长）对单船捕捞能力的影响最大，二者权重值之和可达73.849%；2）从不同的网具类型来看，拖网（包括单拖双拖）对单船捕捞能力的影响明显要高于其他网具，而影响最小的网具类型是钓具；3）船龄与渔船材质权重之和仅为0.015%，整体来看可忽略不计；4）渔船在同等网次数量和作业时长的条件下，忽视船龄、渔船材质的影响，渔船总吨、功率和船长的船舶规格参数越大，网次产量越大，则渔船的捕捞能力越强；5）同等条件下拖网渔船捕捞能力依次强于刺网、张网、围网、罩网、杂渔具和钓具渔船。

另一方面，参照所得因素排序与权重值的研究结果，能够为海洋渔船监管提供建议参考：1）为减船转产补贴计算和单船捕捞能力评价提供多因素权重值；2）网具参数与功率总吨船长渔船规格参数，影响占比最大，是后续捕捞强度管控的重点；3）网次产量、网次数量与作业时长，影响捕捞能力加起来超过60%，因此，限额捕捞、渔获定点上岸等产出式管理政策需要进一步加强；4）渔船功率总吨船长影响捕捞能力约占24%，减船转产项目可持续进行；5）为现有“双控”管理制度的更新与完善，提供更加灵活多样的因素选择。

研究结果能够为现行以控渔船数量与功率的“双控”制度提供多因素控制的支持参考，为现行以单一功率因素核算减船转产补贴政策的优化提供多因素参考，为实现渔船装备现代化升级与其捕捞能力之间协调平衡的更新改造政策优化提供参考，进而为“十四五”渔船监管制度的完善与优化提供帮助。

3 结论

针对影响因素考虑不足、渔捞数据重视不够等问题，基于机器学习算法开展了单船捕捞能力影响因素权重分析与研究，涵盖了船长、总吨、功率、网次产量、作业时长、网次数量、拖网、张网、刺网、围网、罩网、钓具、船龄以及材质等15种以上因素。基于渔捞监测数据，建立了包括神经网络、决策树以及随机森林回归模型，计算得出了各影响因素权重值，结果表明：

1）神经网络、决策树以及随机森林算法，均能够较好地体现投入与产出因素的变化，决定系数2均大于0.84，机器学习算法等智能算法非常适合包含多因素的渔船捕捞能力分析与研究。

2）各影响因素的权重值及其排序，表明网次产量、渔船功率、总吨、船长4个因素的占比达到73.849%，是计算或控制单船捕捞能力重点考虑的指标。

3）该研究将机器学习算法用于包含多影响因素的海洋渔船捕捞能力研究中，推进了大数据、人工智能等智慧技术在农业水产、海洋渔业领域的应用。相对于传统解决方法，所采用的方法能够涵盖渔船捕捞能力分析的多个因素指标，能够提升多指标因素预测回归的准确性，计算得出权重排序。

海洋渔船捕捞能力分析，是一项复杂的系统工程，涉及众多变量因素，稳定、广泛且高质量的包含捕捞数据在内的多源监测数据是推进捕捞能力精准管控的重要源泉，也是未来推进海洋渔业、海洋工程装备数字化、智慧化升级、优化的重要支持，为此，有必要全面加强开展海洋渔业及其装备等高质量数据采集与维护工作。对于包含渔捞数据、统计数据等多数据融合推演的海洋渔船捕捞能力的分析，进而对单船捕捞能力进行量化研究，将是下一步的工作。

[1] FAO Technical Guidelines for Responsible Fisheries No.4 Suppl.3 Fisheries Management 3. Managing Fishing Capacity[M]. Rome:Food and Agriculture Organization of the United Nations, 2008.

[2] 苏新红，方水美，郑奕，等. 福建省灯光围网作业的捕捞能力[J]. 水产学报，2004，28(3)：303-310.

Su Xinhong, Fang Shuimei, Zheng Yi, et al. Fishing capacity of light-purse seine in Fujian province[J]. Journal of Fisheries of China, 2004, 28(3): 303-310. (in Chinese with English abstract)

[3] 颜云榕，冯波，卢伙胜. 中、西沙海域2种灯光作业渔船的捕捞特性及其技术效率分析[J]. 南方水产，2009，5(6)：59-64.

Yan Yunrong, Feng Bo, Lu Huosheng. Comparative analysis on fishing capability of two light attracting commercial fishing methods around Zhongsha and Xisha Islands sea areas,south China Sea[J]. South China Fisheries Science, 2009, 5(6): 59-64. (in Chinese with English abstract)

[4] Laso J. Revisiting the LCA+DEA method in fishing fleets. How should we be measuring efficiency?[J] Marine Policy, 2018, 91(5): 34-40.

[5] Vestergaard N, Squires D, Kirkley J. Measuring capacity and capacity utilization in fisheries: the case of the danish gill-net fleet[J]. Fish. Res. 2003, 60(2): 357-368.

[6] 张祝利，吴姗姗，李胜勇，等. 我国渔船“双控制度”实施有效性评估与政策建议[J]. 中国水产，2018(4)：34-40.

Zhang Zhuli, Wu Shanshan, Li Shengyong, et al. Effectiveness evaluation and policy suggestions of “dual control” implementation for Chinese fishing vessels[J]. China Fisheries, 2018(4): 34-40. (in Chinese with English abstract)

[7] Tingley D, Pascoe S, Coglan L. Factors affecting technical efficiency in fisheries: Stochastic production frontier versus data envelopment analysis approaches[J]. Fish. Res. 2005, 73(3): 363-376.

[8] 郑奕，方水美，周应祺，等. 中国海洋捕捞能力的计量与分析[J]. 水产学报，2009，33(5)：885-892.

Zheng Yi, Fang Shuimei, Zhou Yingqi, et al. The measuring and analyzing on the fishing capacity for Chinese marine fleets[J]. Journal of Fisheries of China, 2009, 33(5): 885-892. (in Chinese with English abstract)

[9] 饶欣，黄洪亮，陈雪忠，等. 中国东海、黄海及南海捕捞能力的比较分析[J]. 海洋渔业，2016，38(6)：680-688.

Rao Xin, Huang Hongliang, Chen Xuezhong, et al. Measurement and comparison of capacity utilization in Chinese waters[J]. Marine Fisheries, 2016, 38(6): 680-688. (in Chinese with English abstract)

[10] Vassdal T, Holst H M S. Technical progress and regress in Norwegian Salmon farming: A malmquist index approach[J]. Mar. Resour. Econ. 2011, 26(4): 329-341.

[11] Lim G, Ismail A L, Hussein M A. Does technology and other determinants effect fishing efficiency? An application of stochastic frontier and data envelopment analyses on trawl fishery[J] J. Appl. Sci. 2012, 12(1):48-55.

[12] 梁铄，秦曼. 中国近海捕捞业技术效率影响因素分析：基于省级面板数据[J]. 中国渔业经济，2016，34(1)：55-62.

Liang Shuo, Qin Man. The study on affecting factors of technical efficiency of inshore-offshore fishery in China: Based on provincial panel data[J]. Chinese Fisheries Economics, 2016, 34(1): 55-62. (in Chinese with English abstract)

[13] Asche F, Guttormsen A G, Nielsen R. Future challenges for the maturing Norwegian salmon aquaculture industry: an analysis of total factor productivity change from 1996 to 2008[J]. Aquaculture, 2013, 396(6): 43-50.

[14] Su J H, Liu S Y, Yun O T, et al. Change of relative fishing power index from technological development in the otter trawl fishery[J]. Journal of the Korean Society of Fisheries and Ocean Technology, 2020, 56(1): 26-36.

[15] 胡贺年，窦学诚. 基于DEA方法的种业经济效益评价研究：以张掖市玉米种业为例[J]. 中国农业科技导报，2015，17(6)：150-157.

Hu Henian, Dou Xuecheng. Studies on economic benefits evaluation of seed industry based on DEA model: A case study of Zhangye corn seed industry[J]. Journal of Agricultural Science and Technology, 2015, 17(6): 150-157. (in Chinese with English abstract)

[16] 贾复. 渔船设计[M]. 北京：农业出版社，1990.

[17] 杨锡运，刘玉奇，李建林. 基于四分位法的含储能光伏电站可靠性置信区间计算方法[J]. 电工技术学报，2017，32(15)：136-144.

Yang Xiyun, Liu Yuqi, Li Jianlin. Reliability confidence interval calculation method for photovoltaic power station with energy storage based on quartile method[J]. Transactions of China Electro Technical Society, 2017, 32(15): 136-144. (in Chinese with English abstract)

[18] 李元，张昊展，唐晓初. 基于多模态数据全信息的概率主成分分析故障检测研究[J]. 仪器仪表学报，2021，42(2)：75-85.

Li Yuan, Zhang Haozhan, Tang Xiaochu. Study on probabilistic principal component analysis fault detection based on full information of multimodal data[J]. Chinese Journal of Scientific Instrument, 2021, 42(2): 75-85. (in Chinese with English abstract)

[19] Abril V U A, Itzamá L Y, Cornelio Y M. One-hot vector hybrid associative classifier for medical data classification[J]. Plos One, 2014, 9(4): 1-10.

[20] 杨胜龙，张胜茂，周为峰，等. 采用AIS计算中西太平洋延绳钓渔船捕捞努力量[J]. 农业工程学报，2020，36(3)：198-203.

Yang Shenglong, Zhang Shengmao, Zhou Weifeng, et al. Calculating the fishing effort of longline fishing vessel in the western and central pacific ocean using AIS[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(3): 198-203. (in Chinese with English abstract)

[21] 唐建军，王映龙，彭莹琼，等. BP神经网络在水稻病虫害诊断中的应用研究[J]. 安徽农业科学，2010，38(1)：199-200，204.

Tang Jianjun, Wang Yinglong, Peng Yingqiong, et al. Application study on BP neural network in the diagnosis of rice diseases and Pests[J]. Journal of Anhui Agricultural Sciences, 2010, 38(1): 199-200, 204. (in Chinese with English abstract)

[22] 陈静波，刘顺喜，汪承义，等. 基于知识决策树的城市水体提取方法研究[J]. 遥感信息，2013，28(1)：29-33，37.

Chen Jingbo, Liu Shunxi, Wang Chengyi, et al. Research on urban water body extraction using knowledge-based decision tree[J]. Remote Sensing Information, 2013, 28(1): 29-33, 37. (in Chinese with English abstract)

[23] 李玉强，陈鋆昊，李琦，等. 基于差分隐私下包外估计的随机森林算法[J]. 哈尔滨工业大学学报，2021，53(2)：146-154.

Li Yuqiang, Chen Junhao, Li Qi, et al. Random forest algorithm under differential privacy based on out-of-bag estimate[J]. Journal of Harbin Institute of Technology, 2021, 53(2): 146-154. (in Chinese with English abstract)

[24] 李蔚，吴恺逾，陈坚红，等. 基于非线性自回归神经网络和随机森林算法的核电汽轮机组出力优化[J]. 中国电机工程学报，2021，41(2)：409-416.

Li Wei, Wu Kaiyu, Chen Jianhong, et al. Output optimization of nuclear power steam turbine based on nonlinear autoregressive neural network and random forest algorithm[J]. Proceedings of the CSEE, 2021, 41(2): 409-416. (in Chinese with English abstract)

Weight analysis of influencing factors of fishing capacity of marine fishing vessels using machine learning algorithm

Lyu Chao, Sun Jiaxin, Liu Shuang※

(,,201306,)

Previous quantitative analysis is often made at the macro level, such as the fishing capacity of marine fishing vessels. There are some limited requirements on the number of indicators in the fishing vessel operation. In this study, a weight evaluation model was presented on the influencing factors in the fishing capacity of a single vessel using machine learning. Fishing monitoring data were about 200,000 rows from 2018 to 2019 in three provinces of the South China Sea. First, the cleaning of original data was implemented using quartile, principal component analysis, data standardization, and unique thermal coding, where reliable data of more than 40,000 rows was obtained.Secondly, machine learning was used to construct the BP neural network, decision tree, and random forest models. At the same time, the grid search and cross validation combined with the traversal cycle were used to create 6,000 generations of learning curves.The results showed that the random forest model performed the best in terms of mean square error, mean absolute error, and determination coefficient, where the determination coefficient of the best parameters group was 0.951, indicating that the random forest model was obviously superior to others.Finally, the weights of each index were extracted using the random forest, thereby obtaining the weights of fishing monitoring data.The result showed that the weights of various influencing factors were as follows: Output of nets(50.070%), PCA (after reducing the dimension of power, gross ton and length)(23.779%), trawls (including single tow, double tow and shrimp tow nets)( 9.409%), number of nets(6.782%), operating time(4.578%), gill nets(2.019%), net drawing(1.347%), seine nets(1.228%), cover nets(0.628%), fishing gear(0.122%), fishing tackle(0.022%), age of vessel(0.009%), material of fishing vessel (steel)(0.002%), material of fishing vessel (FRP) (0.002%) and material of fishing vessel (wood) (0.002%).The research results clearly represent the impact proportion of various factors, which can provide important technical support and reference for the quantitative evaluation and supervision of the fishing capacity of marine fishing vessels, ship reduction and conversion, renewal and transformation and other marine fishing industry management.

fishing; fishing vessels; machine learning algorithm; fishing capacity; smart fisheries engineering

吕超，孙佳新，刘爽. 利用机器学习算法的海洋渔船捕捞能力影响因素权重分析[J]. 农业工程学报，2021，37(13)：135-141.

10.11975/j.issn.1002-6819.2021.13.016 http://www.tcsae.org

Lyu Chao, Sun Jiaxin, Liu Shuang. Weight analysis of influencing factors of fishing capacity of marine fishing vessels using machine learning algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(13): 135-141. (in Chinese with English abstract) doi：10.11975/j.issn.1002-6819.2021.13.016 http://www.tcsae.org

2021-04-12

2021-06-19

农业农村部财政项目（D8021210076），国家自然科学基金面上项目（51876114），上海海洋可再生能源工程技术研究中心（19DZ2254800），上海海洋大学海洋科学研究院开放课题基金资助（A1020300300102）

吕超，副教授，研究方向为海洋渔业工程与船舶、海洋能源利用、系统建模仿真等。Email：clv@shou.edu.cn

刘爽，讲师，研究方向为海洋渔业工程与船舶、海工装备力学分析与优化等。Email：s-liu@shou.edu.cn

10.11975/j.issn.1002-6819.2021.13.016

S126

1002-6819(2021)-13-0135-07