基于梯度提升迭代决策树模型的渔船转移数据挖掘

2021-12-26李怡德

农业大数据学报 2021年3期

李怡德鲁峰，2* 朱勇徐硕，2 孙璐

（1.中国水产科学研究院渔业工程研究所，北京 100141；2.青岛海洋科学与技术试点国家实验室，青岛 266237）

1 引言

渔船转移是海洋渔船日常管理中的一项关键业务，也是所有渔船管理业务当中涉及流程最多、数据传递量最大的业务[1]。渔船转移过程涉及渔船所有权和价值的转移，具有明显的倾向性，通过对大量渔船历史转移数据进行处理分析，可挖掘出与渔船转移活动相关的潜在决定性因子，对保障渔民经济利益和制定渔船管理政策等活动具有重要意义。渔船转移业务通常只对渔船的所有权信息进行更改，而对渔船基础数据并不作更改，通过对渔民购置渔船数据进行分析，结合神经网络、支持向量机、随机森林等人工智能算法，可以得出渔船转移过程中渔民主要关注的特征参数。罗福才等[2]使用渔船作业类型，材质，船龄等数据，采用重置成本法、市场比较法、收益法对渔船资产进行了评估，但该方法缺少对渔船特征数据的分析。张添翼等利用支持向量机[3]算法，可以对渔船转移过程中渔船购置费用进行预测，但该方法仅使用时间序列预测船舶购置费，与船舶本身的特征数据无关联性。Yoon等使用随机森林[4]算法，根据军舰零件消耗量、订单量等数据，预测备用零件储备量，研究表明对于船类的多特征数据，决策树类算法具有较好的准确性。Ⅴan等[5]利用大西洋船队作业数据建立了仿真模型，从贸易网络、商业和家庭等角度分析了渔船购置的限制性因素，发现年轻的渔民更偏好购买老旧和便宜的渔船。肖启俊等[6]利用干散货船交易样本数据集训练了BP神经网络模型，基于船龄、船舶载重吨位和新造船价格来估算二手船的交易价格。Hsieh等[7]构建了一种期权定价模型，评估了船舶出租概率和购买船舶价格之间的关系。Park 等[8]基于模糊层级分析法，从航运公司效益的角度出发分析了二手航运船购置过程中的优先决定因素。Pena-Torres 等[9]建立了区域渔船价格评估经验模型，利用区域间监管差异来识别船价的地区差异效应，分析表明政策与制度的变化是决定区域船价的主导性因素。

然而，近年来有关船舶交易的研究中，大多是基于船舶生产类数据进行数据挖掘，而基于渔船本身的基础数据分析应用较少。中国渔政管理指挥系统拥有全国级的渔船基础数据，在渔船转移业务方面具有较为完善的历史记录，能够以数据形式全方位地展现渔船转移过程的全部信息。已有研究表明，船舶的购置行为具有一定的倾向性[10-14]，即通过对价值的评估确定购买的船舶，但目前对影响船舶购买行为因素的研究较少。本文使用中国渔政管理指挥系统中的海洋捕捞渔船转移历史数据，基于决策树模型，对渔船历史交易结果进行训练，通过带有权重的决策树特征值，来表征渔船转移业务中渔民购置行为的决定性因子。通过分析渔民在渔船转移业务中的重点关注因素，给出渔民购置渔船的倾向性，为渔船管理政策的制定提供参考依据，进而在渔船转移过程中最大化保障渔民的经济利益。

2 材料与方法

2.1 数据及处理方法

根据历年数据统计情况，浙江省渔业经济活动较为频繁，渔船转移现象相比其他各省更具代表性。因此，选取浙江省为例，采用中国渔政管理指挥系统2018 年1 月—2020 年7 月的渔船转移业务数据，共涉及5641 笔交易。渔船转移业务信息包括渔船基础信息、卖出方信息，买入方信息等，其中渔船基础信息包括船长、总吨位、功率、船体材质、船龄、作业类型等数据项。

根据决策树生成过程，采用One-Hot 编码方法，对船体材质、作业类型等字符型数据进行数值化处理，将类别变量转换为决策树模型易于使用的格式[15-16]。为防止加入One-Hot 编码后导致决策树深度过大，在数据处理过程中采用等价替换方法，按照功率、船长等参数与渔船油价补贴的对应关系，将功率参数替换为油价补贴档位参数，并将总吨位替换为吨位与船长的比值。同时，在特征参数添加“是否老旧”数据项，并按照《老旧渔业船舶船龄标准》[17]来判别渔船是否为老旧渔船，决策树的训练数据特征参数如表1所示。

表1 决策树训练数据特征Table 1 The characteristic of decision tree training

2.2 模型算法

决策树模型是一种分类与回归方法，呈树形结构，由根结点、内部节点、叶节点和有向边组成。在分类问题中，决策树代表一组判定规则的集合，树中每条由根结点到叶结点的路径均代表一条判定规则，路径上的内部结点对应着判定条件，而叶节点则对应着判定结果[18]。决策树算法具有计算量小、准确率高、可读性强、易生成分类规则等优点，决策树的生成过程即是从训练集中归纳分类规则的过程，可通过计算信息增益指标对特征参数的重要程度进行排序，进而选出最优特征。因此，在分析渔船转移业务历史数据过程中，决策树模型更适用于寻找渔船发生转移的决定性因子。

采用Friedman[19]提出的梯度提升迭代决策树算法（GBDT算法）来生成决策树模型，该算法可对多个弱分类器进行不断迭代，形成一个强分类器。GBDT算法的基础模型为决策树，通过计算负梯度值不断地对模型进行迭代，形成多个决策树的级联，使残差减少不断减小，从而提升模型的计算速度与准确率。GBDT算法可有效避免单决策树算法的过拟合问题，通过梯度提升方法实现多个决策树的集成，从而解决过拟合的问题，有效提高训练速度[20]。GBDT算法可以表示为决策树的加法模型，即映射F(x)由若干分类器组成，其表达式如下[19]

式中：P为回归树参，其表达式为x为输入样本，αm为第m颗树的参数，βm为第m颗树的权重，函数h(x;αm)表示具有参数αm和x的决策树，M表示决策树的数量。

GBDT 算法通过最小化损失函数来求解最优模型，即通过寻找变量y与样本x的映射关系F*(x)，使损失函数达到最小，F*(x)表达式如下

式中：y为样本的实际标签，n为样本数量。

对于分类问题，损失函数宜采用如下指数形式[21]，即

式中：y的取值区间为[-1,1]。

若将F(x)出现在正区间和负区间的概率表示为

式中：Pr为条件概率，则损失函数的残差Yi表达式为

式中：m为迭代次数。则优化问题等价于求解梯度βm，即

联合式(2)～式(6)，则有

根据已有文献[21]，γm无解析解，其近似表达式如下

加入学习率r防止过拟合，则最终表达式为

2.3 特征分类

单决策树分类算法与其他分类算法相比，产生的分类规则更易于理解。由于决策树的每个分枝都对应一个分类规则，故决策树分类算法最终可以输出一个便于理解的规则集[22]。决策树分类结果的特征重要程度具有显著的差异性，表现为越靠近根节点特征的权重越大。单决策树算法的缺点是分类结果的准确度不高，为使生成的单颗树的结点更具有解释性，对数据做如下判别（表2）。

表2 特征分类Table 2 The classification of characteristic

表2 给出了数据特征的分类情况，船龄数据按照渔业管理人员惯用统计区间划分，具体分为10 年以下、10 年至20 年、20 年以上三类，即船龄数据分类后特征值为1、2、3。对于船体材质数据，由于水泥、玻璃钢及其他材质的渔船数量极少，数据约为5 条，故可忽略不计。考虑到钢质、水泥与玻璃钢的渔船报废年限在同一区间，木质与其他材质的渔船报废年限在同一区间[23]，故材质数据可只考虑钢质和木质两类，即材质数据分类后特征值为1、2。根据管理需求以及实际作业类型分布情况，耙刺，陷阱，笼壶，杂渔具等作业类型的渔船数量较少[24]，且对资源破坏小，故将其统一归为其他类。

3 单决策树训练计算结果

根据单决策树数据特征分类与处理流程，省略权重较低的特征参数后，计算得到的生成的决策树子树如图1所示。

图1 训练生成的决策树及特征权重Fig.1 The generate decision tree and the magnified feature weight

依据决策树特征具有权重的特性，在训练生成单决策分类树的最佳特征划分集中，船龄在20 年以上的渔船、老旧渔船、作业类型为拖网、张网的渔船、30m 以上大型渔船（依据国内渔船油价补贴标准，10档以上渔船最小船长为30m）是树结构中的根结点及后续叶结点。该结果表明，按照此类特征进行划分后，分类结果的损失函数达到最小值，且吨位与船长的比值大于或等于6 时，损失值最小。因此，对于大型渔船，船长越大，渔船总吨位越大，渔船发生交易的可能性越大。实际中，由于渔船越大，其捕捞能力越强，故大型渔船被购置的可能性就越大。当大型渔船达到一定船龄后，发生交易的可能性会变小。而当船龄较大时，作业类型为拖网和张网的渔船反而更容易被交易，这与《渔业捕捞许可管理规定》[25]中指出的拖网、张网等作业渔船将严禁审批制造，且拖网、张网不能互换等规定吻合。单决策树的训练结果表明，渔船船长会对渔船是否更容易被购置产生较大的影响，不同类型的渔船，被转移的可能性存在较大的差异。针对拖网、张网等渔业资源破坏力度较大的作业渔船，只有通过转移的形式才能获得。

4 多决策树生成计算结果

多决策树方法利用GBDT 算法来预测渔船交易发生的可能性，计算中，设置参数学习率r=0.1，决策树数量t取值为[60,90]，最大深度d取值为[7,11]，并使用交叉法来验证不同参数下分类的准确率。交叉法是将样本数据随机划分为训练集和测试集的方法，训练集用于训练模型，测试集用于结果验证。在选取的5641条渔船转移交易数据中，将随机抽取的500条数据定义为测试集，将剩余的5 141 条为定义为训练集，结果如表3所示。

表3 GBDT算法交叉验证结果Table 3 The cross validation results for GBDT algorithm

按照渔船更新改造管理政策要求，渔船在进行更新建造时，会根据船长、船体材质等参数来计算油价补贴数额，且补贴金额与船长成正比。渔业资产已经不单是渔船资产，还有与补贴相关的功率指标[26]。因此，购置此类渔船后，当船龄达到报废年限后再进行更新改造，可以最大化保障渔民的经济利益。以往在渔船转移管理工作中，渔船补贴在推动渔船规范管理工作方面提供了重要作用[27]，利用GBDT算法可在核查补贴结果前优先找到渔民关注的渔船，对此类渔船进行重点监督及管理。

多决策树利用GBDT算法训练出计算模型，对测试集进行分类，并与原结果比较得到分类准确率。由表3 可见该模型的分类准确率均在60%以上。对于GBDT 算法，分类结果的准确率不高[28]，这意味着以船长，总吨位，双控功率，船体材质，船龄，作业类型等特征作为训练数据，在特征代表性上存在一定程度的不足[29]。事实上，在渔船转移过程中，除了要考虑渔船类型等基本数据外，渔民购置渔船时也会考虑自己的经济状况等因素[30-31]。通过GBDT 算法，可以让渔民更容易地找到自己想要购置的渔船，结合中国渔政指挥系统[1]，渔船交易平台，为渔民业务办理提供更大的便利，同时获得最大的经济利益。也可使管理人员更容易定位需重点监控管理的渔船，对渔船管理工作起到重点指向的作用，并对政策的制定起到辅助决策的作用。

5 结论

基于GBDT算法，结合中国渔政管理指挥系统的渔船基础数据和转移数据，构建了渔船转移倾向性分析决策树模型，分析了单决策树和多决策树两种方式下的渔船转移过程决定性因子。计算结果表明，不同类型的渔船，被购置的可能性存在显著的差异，其中大船长、大吨位、高船龄、拖网及张网作业类型是决定渔船发生转移的重要决定因子。根据决策树损失函数计算得出的损失值来看，以20 年船龄、大中型船长等特征划分，损失值为比其他特征损失少15%以上，意味着使用所选特征进行计算的分类识别率更高。因此，对于30m以上的大型渔船，船长越大，渔船总吨位越大，渔船发生交易的可能性则越大。使用GBDT算法虽然可以分析渔船主尺度数据对渔船转移的影响，但实际渔船转移业务中，存在诸多的复杂因素，如渔民的经济状况以及台风、赤潮等自然灾害情况等，在后续研究中需要进行更详细的探讨，融合更多的影响因素，并提高算法的准确率。