基于随机森林模型的船员选择培训机构影响因素分析
2021-05-19袁玉峰郁晓红郑彭军
袁玉峰,郁晓红,郑彭军*
(1.宁波大学 海运学院,浙江 宁波 315832;2.浙江省2011 港口经济协同创新中心,浙江 宁波 315832;3.国家道路交通管理工程技术研究中心宁波大学分中心,浙江 宁波 315832;4.现代城市交通技术江苏高校协同创新中心,江苏 南京 210096)
船员是一种专业技能要求很高的职业,船员适任资格的取得和维持都要求船员参加相应的培训,船员通过海事主管部门的考试才能取得和保持相应的证书.80%以上的海难事故都涉及人为因素[1],加强船员教育与培训是提高船员素质,减少人为失误,保护海上生命、财产安全和海洋环境的主要途径.目前我国共有234 家培训机构开展56项项目的船员培训,2018 年培训量达191 371 人次,船员培训的重要性日益突出.然而,目前无论是培训机构的布局还是培训计划的制订都还没有建立统筹机制,与船员对于培训质量和便利性的要求还存在较大差距[2].为了厘清影响船员选择行为的关键因素,从而优化船员培训资源配置,提高培训质量,科学制订培训计划,开展影响船员选择培训机构影响因素的研究十分必要.
目前,有关船员培训的研究主要集中在培训过程中存在的问题以及如何提高船员培训质量两个方面,而对于船员培训选择行为的影响因素鲜有涉及.在影响因素研究领域,多位学者应用非集计模型[3]、多元回归模型[4]、决策树[5-6]、随机森林模型[7]、支持向量机模型[8]、K 近邻模型[9]、BP 神经网络模型[10]、Adaboost 模型[11]等方法开展了研究.例如,刘炳恩等[3]利用非集计离散选择模型结合2003 年北京居民出行调查数据,对影响居民出行方式选择的因素进行了分析,并将出行者个人特性引入模型,提高了模型的精度和实用性.Meng等[4]利用多元回归分析了逆温、大气边界层高度、风向和相对湿度等不同气象因子对北京市冬季PM2.5浓度的相对贡献.王文富[10]研究了影响企业人力资源结构的因素,采用人工神经网络理论建立了预测模型.柳本民等[12]以美国公路2013~2015年所有的追尾事故数据为样本,建立了基于SVM的双车追尾事故与连环追尾事故二分类模型,得到了导致连环追尾事故发生的关键影响因素.
应用机器学习进行影响因素的分析具有传统方法不具备的优势,部分学者开展了一些有益的尝试,但也存在只关注机器学习模型的拟合精度,缺乏对模型本身的解释[13]等不足,而应用机器学习对船员选择培训机构影响因素分析尚未有报道.随机森林模型无需进行变量选择,可借助特征重要性排序方法进行因素分析,从而提高模型的可解释性[14].因此,本研究采用随机森林模型,应用特征重要性排序增强模型的可解释性,来辨析各影响因素对选择行为的相对重要性.其次,利用模型验证集的拟合精度(R2)量化影响因素对船员选择培训机构的解释力度.
1 材料与方法
1.1 数据来源
选取2015~2019年浙江省6 家船员培训机构船员培训考试的数据,其中杭州1 家、宁波2 家、舟山2 家、温州1 家,共73 894 条记录.每条记录包含船员姓名、身份证号、培训机构、考试科目、成绩等内容.通过对原始样本数据整理分析,考虑到本文研究的对象为影响船员选择培训机构的因素,剔除只参加过1 家机构培训的船员的记录,筛选出参加过1 家以上机构培训的船员样本,得到23 521条样本数据.
1.2 特征变量选择
通过对现有研究的分析,影响选择行为的因素主要包括两个方面:(1)参与对象的个人属性,如年龄、性别、职业等;(2)被选择对象的社会属性,如地理位置、公众满意度、培训质量等.特别是年龄这一特征变量,在众多关于选择行为的研究中都显示了举足轻重的作用.如张荣花等[15]在研究汽车共享条件下居民选择出行方式的影响因素时,证明了年龄会对汽车共享服务选择行为产生显著影响;王慧芬等[16]在探究影响汽车共享换乘地铁选择行为的因素时,得到年龄、性别、职业等因素对汽车共享换乘地铁影响显著;练胜等[17]在研究居民的自行车选择行为影响因素时同样也得到了年龄是影响居民自行车选择行为的因素之一.因此,本文以船员访谈为基础,根据船员选择培训机构时会考虑的因素,并结合国内外相关学者的研究,选取船员年龄(AG)、所在地(HT)、参培次数(EXN)作为代表船员个人属性的特征变量以及培训机构的地理位置(GL)、许可培训项目数(TRN)、服务质量(SQ)作为代表培训机构社会属性的特征变量,见表1.其中年龄和所在地从船员身份证号中提取,培训机构的服务质量根据培训机构的开班频率、培训人数、平均合格率及当地海事部门服务水平确定[18].
表1 特征变量
1.3 方法
决策树算法是Quinlan[5]提出的,决策树模型中最常用的算法是基于信息熵的决策树学习算法—–ID3 算法[6],它的属性选择标准是信息增益,通常选择信息增益最大的属性作为它的“最佳”分裂点.其原理如下:设S为一个包含s个样本的集合,类别属性可以取m个不同的值,对应于m个不同的类别Ci,i∈{1,2,3,…,m}.若属性A选为测试属性,A有v个不同的值{a1,a2,a3,…,av},A将集合S划分为v个子集{S1,S2,…,Sv},设Nij为子集Nj中属于Ci的样本数.划分当前样本集合所需要的信息可按下式计算:
对给定的子集sj,其信息为:
对每个属性的信息进行计算后,选择增益最大的属性作为给定集合S的测试属性,并由此产生相应的分支结点.
随机森林模型是Breiman[7]于2001年提出的一种基于决策树的集成算法,它使用bootstrap 重采样技术进行采样,从原始训练样本集中提取并生成训练样本子集,将提取到的训练样本子集生成决策树,由这些决策树组成的集合构成随机森林,最后取所有决策树的预测平均值作为最终预测结果.随机森林回归是由很多弱回归器(决策树)集成的强回归器.
在建立随机森林模型之前,需要先确立参数.从随机向量(X,Y)中随机抽取n个训练集(通常训练集所占比例为0.7),且这些随机向量均为独立同分布.其中X为输入向量,Y为输出向量.
设随机参数向量为θ,对应的决策树为T(θ).记Q为X的域,且Q⊆RP,其中P⊆N为自变量的维度.决策树的每一个叶节点都对应一个矩形空间(Q),记Rl且Rl⊆Q.对任意x∈Q,当且仅当一个叶节点l满足x∈Rl,记决策树T(θ)的叶节点为l(x,θ).随机森林的建模过程如下[19]:
(1)利用bootstrap方法重采样,随机产生k个训练集θ1,θ2,…θk;利用每个训练集生成对应的决策树 {T(x,θ1)},{T(x,θ1)},…{T(x,θk)}.
(2)假设所有特征的维度为M,从中随机抽取m个特征作为当前节点的分裂特征集合,选择最佳的分裂方式对该节点进行分裂(通常,m的值在整个森林的生长过程中不会发生变化).
(3)随机森林中每个决策树都尽量以最大限度的方式增长,不需要进行剪枝.
(4)在新的数据中,通过叶节点l(x,θ)的观测平均值可以得到单棵决策树T(θ)的预测值.假如一个观测值Xi属于叶节点l(x,θ)且不为0,令权重ωi(x,θ)为:
式中权重之和等于1.
(5)根据因变量观测值Yi(i=1,2,…,n)的加权平均得到单棵决策树的预测.单棵决策树的预测值的计算式为:
(6)通过对决策树权重ωi(x,θt)(t=1,2,…,k)取平均得到每个观测值Yi∈(1,2,…,n)的权重ωi(x):
则随机森林回归的预测值可记为:
本文基于23 521 个匹配样本数据,将所有影响因素作为解释变量,船员选择的培训机构作为因变量,构建随机森林回归模型,将训练集和测试集按7:3划分,计算出模型精度(R2),并以此衡量影响因素对船员培训选择的影响大小.
2 结果分析
2.1 随机森林模型适用性评估
将影响因素作为自变量,船员培训机构(机构A~F 分别赋值1~6)作为因变量,构建多元线性回归模型、K 近邻回归模型、AdaBoost 回归模型和随机森林模型,拟合结果见表2.随机森林模型的拟合精度(R2)最高,误差(RMSE)和残差平方和(RSS)都最小,因此,选用随机森林模型分析船员培训选择行为的影响因素.
表2 模型拟合结果
2.2 影响因素重要性分析
本文提出的随机森林模型可以量化单个因素对船员选择的影响程度.分别将各影响因素作为输入变量,以船员选择的机构值作为输出变量,训练随机森林模型,模型拟合结果如图1 斜对角线所示:按影响程度大小排序,地理位置、服务质量、许可培训项目数、参培次数、所在地和年龄分别能解释58.7%、43.8%、4.1%、1.0%、0.5%和0.1%的船员培训选择行为.地理位置和服务质量对船员培训选择行为的影响程度最高.
同理,影响因素两两组合作为随机森林模型的输入变量,可以量化双因素交互作用对船员培训选择行为的影响,从图1 可见,地理位置与服务质量交互能够解释81.2%的船员培训选择行为,地理位置与许可培训项目数能解释64.7%的船员培训选择行为.
图1 船员选择培训机构各因素的影响程度
2.3 影响因素的区域差异分析
为进一步探索船员选择行为影响因素的区域化差异,按船员所在地,分别对沿海地区船员人数较多的舟山、宁波、台州、温州的船员数据进行了分析,结果如图2 所示.随机森林模型的拟合精度对所有地区船员均较高(R2>0.85).
图2 不同地区船员选择培训机构的影响因素的解释力度
从结果可以看出,影响不同地区船员选择行为的主要因素排序十分相似,宁波、舟山和温州、台州均为地理位置和服务质量,而且培训机构的地理位置影响远远大于其他因素,说明船员有就近选择培训机构的特点.
对于宁波和舟山的船员,地理位置可以解释80.4%和82.9%的选择;对于台州和温州的船员,服务质量可以解释28.9%和28.0%的船员选择.船员培训选择行为的最主要因素地理位置的影响存在一定区域差异,其解释率在不同地理分区的排序为:宁波>舟山>温州>台州.这主要是因为宁波和舟山的船员培训机构规模较大,许可培训项目较齐全,本地船员基本可以选择就地培训.温州地区虽然有一家培训机构,但规模很小,培训项目有限(仅有2 项培训资质),而台州没有本地培训机构,因此大多数培训需要选择其他地区的培训机构,考虑了较多的培训质量因素,地理位置的解释力度就相对减少了.不同地区的年龄、籍贯以及考试次数对船员培训选择的地区差异性解释力度均很小,说明船员选择行为的区域差异化与这三者的相关性不显著.
3 结论
(1)地理位置对船员培训机构选择行为的影响最大,可解释58.7%的船员培训机构选择行为;年龄对船员培训机构选择行为的影响最小,解释率仅为0.1%.因素交互显著提高了影响因素对船员培训机构选择行为的解释力度.
(2)船员培训机构选择行为与影响因素间的关系存在地区差异性,同一影响因素对不同地区的船员培训机构选择行为的影响力度存在区域差异.地理位置对宁波、舟山地区船员培训机构选择行为的影响较大;温州、台州地区由于缺少本地培训机构,服务质量对本地区船员选择行为的影响较大.
(3)影响船员选择培训机构的最主要因素是培训机构的地理位置和服务质量.如果有本地培训机构,大多数船员会优先选择本地培训机构,服务质量的影响会相对较小,说明合理布局培训机构对船员培训服务非常重要.在选择本地机构受限时,服务质量对船员选择培训机构的影响会增加,因此,培训机构也可通过提高培训服务质量来扩大服务范围,增强培训机构的影响力.