APP下载

基于KMSMOTE和随机森林的爬升段油耗分类

2019-04-15陈静杰崔金成

计算机应用与软件 2019年4期
关键词:分类器油耗类别

陈静杰 崔金成

(中国民航大学电子信息与自动化学院 天津 300300)

0 引 言

飞机在爬升的过程中,影响飞行燃油消耗的特征众多,为了分析不同飞行特征对油耗的影响,需要根据影响爬升段油耗的主要飞行特征对飞行油耗数据进行分类[1]。由于收集的数据具有随机性,致使油耗区间样本分布不平衡。因此,本文以爬升段油耗为研究对象,并在数据层面处理不平衡性,以改善爬升段油耗分类结果。

针对数据不平衡的分类问题,国内外许多学者在算法层面和数据层面进行了大量的研究。其中,基于算法层面的有代价敏感学习、集成算法等。文献[2]采用改进的随机森林算法,对构成森林的每棵树进行筛选,以方便分析高维空间中数据分布的不平衡问题。文献[3]提出了权重采样算法,即boosting中权重更新机制保持不变,弱学习器在采样后的权重分布下学习,以提高分类器性能。文献[4]提出了一种动态调整阈值的ε-KSVM分类器,在利用KSVM对待测样本进行分类前,采用遗传算法寻找最优阈值ε。而基于数据层面主要有过采样、欠采样和混合采样技术。文献[5]采用改进的SMOTE算法构造少数类样本,充分利用异类近邻的分布信息,对构造的伪样本的质量和数量进行控制,用来提高分类准确率。文献[6]针对数据样本分布不平衡,提出一种基于概率分布的过采样技术构造伪样本,然后使用随机森林进行分类。文献[7]采用SMOTE算法对少数类样本进行过采样,和欠采样对多数类样本进行去重,构造更清晰的分类界面。

飞机飞行过程是一个复杂的非线性过程,极易受飞行环境影响,致使收集的样本数据分布不平衡。根据少数类样本在爬升段油耗上的分布,本文利用k-medoids对少数类样本聚类,并使用SMOTE对聚类的簇构造伪样本。不仅能保证在很大程度上不破坏原始数据分布,还能有效提升数据集的质量。另外,文中采用随机森林作为爬升段油耗分类器,森林在建树的过程中,训练样本采用随机有放回的采样,在一定程度上消除了数据不平衡对分类器的影响。

1 基于KMSMOTE的随机森林

1.1 KMSMOTE基本原理

传统的SMOTE算法从少数类样本中随机构造伪样本,对所有少数类样本一视同仁,导致原始数据分布的改变。另一方面,如果构造的伪样本位于少数类与多数类的区间边界,甚至向多数类靠拢,加大了误分类的概率[8-9]。针对以上两点,本文提出一种基于k-medoids聚类的改进SMOTE算法。KMSMOTE的基本思想是将少数类样本进行聚类,记录每一个聚类簇的中心值(簇心),之后SMOTE利用簇心对少数类进行插值构造伪样本。KMSMOTE算法具体计算过程如下:

(1) 确定需要聚类的个数k。

(2) 在少数类样本集合中选取k个点作为各个聚簇的中心点。

(3) 计算其余所有点到k个中心点的距离,并把每个点到k个中心点最短的距离作为自己所属的聚簇。

(4) 在每个聚簇中按照顺序依次选取点,计算该点到当前聚簇中所有点距离之和,最终距离之和最小的点,则视为新的簇中心点。

(5) 重复步骤2、步骤3,直到各个聚簇的中心点不再改变。设最终各个类的簇心分别为{c1,c2,…,ck}。

(6) 选择k-medoids聚类得到的簇心及其近邻构造伪样本,对每一个簇心等概率的构造伪样本。使用改进的公式构造样本,公式如下:

xnew=ci+rand(0,1)×(xj-ci)i=1,2,…,k

(1)

式中:xnew为新构造的样本点;ci为簇心;xj是以ci为簇心的聚类簇里的样本;rand(0,1)表示0到1之间的随机数。

1.2 分类算法设计

针对爬升油耗数据分布不平衡问题,文中主要从数据层面入手,使用改进的SMOTE算法对少数类样本进行插值处理,使其达到与多数类相同的样本数。平衡样本数据后,利用随机森林的优势构建爬升段油耗分类器[10-11]。随机森林从训练集中随机有放回的选取样本,训练得到ntree棵CART决策树,作为基分类器。将生成的多棵决策树组成随机森林,对于分类任务,得到ntree个基分类器投出最多票数的类别为最终类别。基于KMSMOTE和随机森林的分类算法,具体步骤如下:

(1) 从QAR数据中提取爬升段油耗及飞行特征,并对油耗数据进行离散化,得到不同飞行特征对应的油耗类别。

(2) 利用KMSMOTE对少数类样本进行插值构造伪样本,使其与多数类拥有相同的数据规模。

(3) 随机森林分类。将原始数据训练集进行平衡化处理之后,使用随机森林对平衡后数据进行训练和预测。其中,由于飞行特征多为连续特征,所以采用CART决策树构成随机森林。

(4) 分类模型KMSMOTE-RF的训练与验证。

1.3 分类模型评价指标

采用准确率,精确率和召回率三个性能指标,评价分类器性能。这些评价指标的计算都需要用到如表1所示的三分类的混淆矩阵[12-13]。混淆矩阵的主对角元素(v11,v22,v33)为被分到正确类别的样本数,对角线以外的元素为随机森林分类相对于样本真实类别的误分类数。其中,V1、V2和V3表示分类的类别。

表1 三分类混淆矩阵

准确率:指对于给定的测试数据集,分类器正确分类的样本数与总样本数的比值,反映了分类器对整个测试集样本的判定能力,计算公式如下:

(2)

精确率:指被分类器预测的样本中预测结果正确的比重,公式如下:

(3)

召回率:指被分类器正确预测的样本占真实类别样本的比重,公式如下:

(4)

2 实验设计与结果分析

2.1 数据集

飞机的飞行一般包括起飞、爬升、巡航、下降和着陆五个阶段。滑跑段和着路段情况复杂且油耗占比较少,文中只对爬升段油耗进行分析,巡航段和下降段油耗分析方法与爬升段类似。根据QAR数据和相关文献[14-15],分析出4个影响爬升段油耗的主要飞行特征:(1) 爬升距离,即爬升段实飞距离,根据QAR数据里的经纬度求出每秒大圆距离,累加可得。(2) 爬升时间,指爬升段所用的总时间。(3) 平均爬升率,即每分钟飞机上升的高度。(4) 初始爬升重量,由飞机起飞前总重量减去滑跑段油耗量。另外,目标变量为爬升油耗,即爬升段平均油耗,根据飞机爬升期间,左发动机和右发动机燃油流量相加,对时间取平均值得出。

本文选取飞行航线为北京飞大连,机型为空客A331,共560个QAR航班数据为实验样本。同一航线、同一机型多个航班的爬升油耗是一个在区间内随机取值的连续性变量,首先需要将油耗数据进行离散化处理,本文采用等间距法将其划分为三个互不相交的小区间,划分结果如图1所示。每个区间由一个类别标签表示,分别为最小油耗区间V1、平均油耗区间V2和最大油耗区间V3。由图2可以看出不同类别的样本量极度不平衡,即类别之间的比例失调,致使预测结果会偏向较多样本的类。

图1 爬升油耗区间划分

由图1可得,对于V2而言,区间V2和V3都属于少数类,约是多数类的三分之一。爬升段油耗分布比较离散,不同区间的差值也比较大。尤其最大值与最小值油耗相差近1 500 kg燃油,这为调节航空燃油提供了充足的优化空间。

2.2 实验参数设置

随机选取总样本量的80%作为训练集,剩下20%样本作为验证模型的测试集。在对爬升段油耗分类过程中,聚类个数k值和构成森林树的个数ntree会对分类算法产生一定的影响。故使用准确率指标,测试了ntree和k值对本文所提方法分类性能的影响。在测试森林规模时,特征指标不变,取k值为一固定值,仅改变森林规模在10到500棵树之间,每增加10棵树运行10次算法,求其准确率均值,结果如图2所示。

图2 不同森林规模的分类准确率

根据图2可以看出,随机森林规模在70棵树的时候,分类准确率最高,达到91.3%。随着森林规模的增加,预测准确率呈衰减状态,最后趋于平稳。这是因为随着森林规模的增加,后面的树可解释性变差。

测试聚类个数k值时,保持森林规模ntree等于200,聚类个数分别从3到10,每个k值运行10次,以准确率均值作为评价指标,结果如图3所示。

图3 不同k值的分类准确率

由图3可得,当聚类个数k值等于7时,最大分类平均准确率为90.3%。所以,本文在使用KMSMOTE-RF方法做实验时,均基于k-medoids聚类个数设置为7,随机森林规模ntree设置为200。

2.3 实验结果及分析

采用对比试验,使用随机森林、传统SMOTE-RF和文中所提方法分别进行了实验。为保证结果的精确度,每个实验独立运行10次,最后取性能指标的平均值。平均分类性能如表2所示。

表2 分类模型性能评价指标

由表2可以得出以下结论:

(1) 单独使用随机森林进行分类时,从少数类召回率明显低于多数类的召回率,在分类过程中仍然存在样本不平衡问题。

(2) 加入SMOTE算法对原始数据进行处理后,分类准确率有所提高。类别V1的精确率由88.6%减小到79.8%,而召回率由60.1%增大到80.5%,说明分类器对少数类样本的识别能力提高了。

(3) 使用改进的KMSMOTE与随机森林相结合,不仅在分类准确率上有所提高,且还降低了多数类与少数类的精确率与召回率之间的差值,使分类结果不在偏向多数类。

3 结 语

在航空业节能减排的趋势下,文中从爬升段油耗的数据不平衡着手,基于KMSMOTE的随机森林分类器处理油耗数据的不平衡问题。一方面,该算法对从数据层面分析数据的不平衡性,并对传统的过采样技术SMOTE进行改进,以此提高分类器的性能。另一方面,由于随机森林的集成思想的优势,构成森林的每一棵决策树训练和分类过程都是独立的,可以通过并行处理降低程序的运行时间,本文的不足之处在于油耗区间划分过硬,对油耗数据区间划分未与飞行特征联系起来,这是下一步需要研究的方向。

猜你喜欢

分类器油耗类别
学贯中西(6):阐述ML分类器的工作流程
论陶瓷刻划花艺术类别与特征
基于朴素Bayes组合的简易集成分类器①
一起去图书馆吧
一种自适应子融合集成多分类器方法
双管齐下 YarisL致享综合油耗测试
浅谈多分类器动态集成技术
当打之年 上汽集团MG GT 1.6T 综合油耗测试
哪款汽车更省油?——百款汽车真是油耗数据对比
天语车发动机故障灯常亮 油耗上升