APP下载

基于随机森林的航材不平衡样本集数据分析方法研究

2021-10-21任宇轩

科技信息·学术版 2021年15期
关键词:航材分类器随机森林

任宇轩

摘要:不平衡样本集一般指在多数类样本个数与少数类样本个数相差较大的数据集合,对这类数据进行分类时,结果会偏向于多数类,导致分类错误。为解决不平衡样本集在数据分析时的问题,使用了一种基于代价敏感的随机森林方法,并在飞机航材保障数据分析中应用,结果表明該方法能够对不平衡数据进行较为准确的分析。

关键词:随机森林;不平衡数据;分类器;航材

1 引言

航材保障是为飞机检修维修提供所需航材的重要工作,其直接关系到飞机能否正常执行任务。缺材停飞指飞机因缺乏航材导致无法飞行,为掌握航材保障工作规律,对保障数据进行分析,预判缺材停飞事件发生具有重要的意义。但是航材保障工作中缺材停飞属于小概率事件,导致缺材停飞的航材占比一般不足百分之五,导致样本集内正样本与负样本比例极不平衡,对这类样本集进行数据分析会导致结果出现偏差,算法会使得分类结果偏向于样本容量大的一类,如何解决不平衡样本集对数据分析结果带来的影响是当前的热点研究方向。

2 代价敏感的随机森林算法

代价敏感的思想对于不平衡数据分析有很好的效果,在对于不平衡数据的分类器中把少数类错分为多数类的代价设为较大,能够使得分类器对于少数类样本更加关注。其主要思想与我们对待不平衡样本集的思想相同,与其他对于不平衡样本集的处理方法相比较,代价敏感矩阵拥有更低的时间复杂度,更适合大数据处理,但大家敏感矩阵的具体值确定较为困难,代价敏感矩阵方法分类方法一般有三种。

一是将误分类的代价以权重的形式直接作用到数据集中,这种方法其实相当于通过改变数据权重的方式来修改数据的分布,使分类器朝着误分类代价减少的方向学习。受到AdaBoost的启发,有一些用于不平衡数据的代价敏感的Boosting算法已经提出,一个典型的算法就是AdaCost,它是AdaBoost的变种形式,只是将误分类代价作为数据空间中权重更新的策略而引入。

二是把代价最小化技术同集成方法结合。先使用传统的集成学习方法训练模型,然后将训练出的传统模型与代价最小化技术相结合形成代价敏感模型。MetaCost是一种将传统的分类器转换为代价敏感模型的方法,传统分类器通过一个“元学习”过程,根据最小期望代价修改训练样本的类标记,并使用修改后的训练集重新学习新的模型。使用 MetaCost 的优势就是它将分类器视为黑箱,不需要知道分类器的内部结构,同时可以应用到任何个数的基分类器上以及任何形式的代价矩阵上。

三是直接构造一个代价敏感模型,将代价敏感函数或者特征同分类器直接结合,通过学习器的学习过程将代价敏感函数拟合到分类器中。文献将代价敏感方法和决策树结合,提出了基于代价敏感的剪枝方法。该方法将代价函数作为剪枝评判的标准,对决策树的过拟合问题起到一定的缓解作用。同时,经过剪枝后,分类器泛化能力和分类准确率得到了一定程度的提高。然而,剪枝操作对阈值的设定十分敏感,将阈值进行少量的变动,会引起整棵树很大的变动。另外,将剪枝操作加入到分类器的学习中,无疑会加大分类器学习所需的时间。

随机森林分类器是一种将多个决策树组合为一个算法的机器学习方法,多棵决策树表示为{h(X,θk),k=1,2,…,k},k表示随机森林里基分类器的个数,决策树基于Bagging的随机有放回抽样,在随机空间进行魔性训练,保证了基分类器的多样性。由于在样本选择过程中的随机性提高看分类的精准度,避开了过拟合问题。随机森林方法组合多棵决策树的分类结果,结果选择多数决策树的结果。

式中,hk(x)是决策树模型,y是决策树的分类结果,I(·)为指示器函数

代价函数是根据数据集特征得来,通过计算样本分布,构造代价因子,详细步骤如下。

第一步,计算整个数据集、多数类样本、少数类样本的的数据中心。

第二步,计算各类别数据中心到数据集数据中心的全中距离,在数据集中,重要特征相对较少,计算类别中心到整个数据集中心的欧式距离构造代价对重要特征不公平,本算法引入权重距离,利用信息增益衡量每个特征在不同类别中的重要性。

第三步,设多数类c1,少数类c0,其中样本数分别为N1,N2,能够定义γ系数如下:

3 实例验证

实例选择某保障单位一段时间内的保障数据进行分析,共1121条数据中,缺材数据占比约为百分之5,属于不平衡数据集,采用代价敏感的随机森林方法进行分析。为消除不同属性之间量纲不同对结果的影响对数据集采用归一化处理。

将代价敏感的随机森林算法与普通随机森林算法结果相比较,0表示未发生缺材,1表示发生缺材。下表中1/0表示实际为1算法分类结果为0,以此类推。是研究过表明传统随机森林算法会将绝大多数样本归类为多数类,而代价敏感的随机森林算法能提高分类器对少数类样本的分类准确度。

可见代价敏感随机森林算法在处理不平衡数据时总准确率明显提高,且将少数类样本分类正确率也有极大的提升。

4 结论

不平衡样本数据集对数据分析工作提出了更高的要求,传统的机器学习算法会受到样本容量不均的影响,对少数类样本的分类能力较差。本文采用了一种代价敏感的随机森林方法,使算法更加关注少数类样本的分类结果,随机森林综合了多棵决策树的结果,实例验证表明该算法相较于传统随机森林方法,在处理不平衡数据时有着更高的准确率。

参考文献

[1]曹正凤.随机森林算法优化研究[D].首都经济贸易大学,2014.

[2]姚登举.面向医学数据的随机森林特征选择及分类方法研究[D].哈尔滨工程大学,2016.

[3]肖坚.基于随机森林的不平衡数据分类方法研究[D].哈尔滨工业大学,2013.

[4]尹华,胡玉平.一种代价敏感随机森林算法[J].武汉大学学报(工学版),2014,47(05):707-711.

[5]杨杰明,高聪,曲朝阳,阚中锋,高冶,常成.基于代价敏感的随机森林不平衡数据分类算法[J].科学技术与工程,2018,18(06):285-290.

[6]高聪.基于随机森林的不平衡大数据分类算法研究[D].东北电力大学,2018.

[7]王平,单文英.改进的随机森林算法在乳腺肿瘤诊断中的应用[J].计算机应用与软件,2016,33(04):252-257+264.

猜你喜欢

航材分类器随机森林
学贯中西(6):阐述ML分类器的工作流程
航材共享模式研究
浅析二手航材在中国的使用
从“人”的角度浅谈对航材管理的认识
供应链管理的航材仓储保障与发展
基于AdaBoost算法的在线连续极限学习机集成算法
一种统计分类方法的学习
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
拱坝变形监测预报的随机森林模型及应用