基于US-D-DD飞机油耗区间估计

2021-07-21陈静杰

计算机工程与设计 2021年7期

陈静杰，王希

(1.中国民航大学电子信息与自动化学院，天津 300300；2.中国民航大学计算机科学与技术学院，天津 300300；3.中国民航大学中国民航环境与可持续发展研究中心(智库)，天津 300300；4.中国民航大学综合交通大数据应用技术国家工程实验室，天津 300300)

0 引言

目前，国内外很多学者从不同角度对飞机油耗进行了研究，主要分为基于飞机性能参数的油耗模型[1-3]和基于飞行数据分析的油耗模型[4-7]。然而实际的油耗分析和预测模型参数具有很强的不确定性。由于风向、风速、温湿度、驾驶员习惯等众多因素的影响，同一航程所对应的飞机油耗差异较大，点预测结果必然无法表征实际飞机油耗潜在的随机性。因此如果能在点预测的结果上，对由不确定性因素引起的预测结果变动范围进行量化，从而显示出油耗数值波动的区间。目前国内外还没有对飞机航段油耗应用场景下的区间估计的研究，主要运用在电力负荷、风速等领域。Yang等[8]采用了Bootstrap自助法对于小样本构造样本进行估计；Zong等[9]采用了高斯过程回归(GPR)对不同核函数建模进行区间估计；Wang等[10]基于BP神经网络多输出特性的风电距离预测模型；Yang等[11]提出一种基于双变量经验模态分解技术和最小二乘支持向量机的组合区间预测方法；Yang等[12]提出一种基于Beta分布的风电功率预测误差区间的估计方法；Fan等[13]利用贝叶斯框架下的相关向量机模型可以获得概率输出，量化预测结果的不确定性。

同时，多数情况下飞机油耗都会存在着因业载、飞行时间、风速等原因而导致油耗相对较多/少的问题，这种情况下，这部分航程对应的油耗数据集相对近邻航程的数据集会整体偏上或者偏下。然而航程与油耗基本正相关，但因为部分航程的油耗消耗过多，在拟合时会出现航程与油耗负相关的趋势，并且会影响其余航程的油耗区间估计结果。基于以上背景，本文分析研究了基于数据偏离性和密度分布欠采样的飞机油耗区间估计方法，将会提高区间估计的精度。

1 基于偏离性与密度分布欠采样方法

1.1 算法思想(US-D-DD)

飞机油耗数据由于众多因素的影响，同一航程(标准距离:国际上普遍采用标准大圆距离下的飞机油耗水平来衡量航段燃效效率)对应着多个油耗值，并且实际的油耗数据在部分航程处由于业载等原因导致油耗值整体偏高/偏低，这一现象在区间估计时会产生航程与油耗呈负相关的趋势以及对整体区间结果产生扰动，因此就需要对油耗值偏离‘正相关趋势’的航程对应的油耗值进行筛选，利用基于密度聚类的方法能够将密集且靠近的数据点组合成一个集群这一优势将油耗值进行聚类，对于偏离度大的类直接进行欠采样处理。基于以上思想，本文综合考虑数据偏离性和密度分布的特点，去除少数航程中偏离性较大的数据对区间估计整体结果的影响。首先对于同一机型的全部航程，按照航程的数值将数据划分成n类，并进行野值剔除数据预处理。其次，计算每个航程中所有油耗值的均值，进行线性拟合。接着计算每个航程的均值相对于线性拟合直线的偏离度，选定偏离度阈值D’，选出偏离度大于D’的航程数据集定义为Dd(d为航程编号)，并对其油耗数据进行密度分析，得到每个样本点的密度，选定T为密度阈值，并根据T作为划分标准将数据集分为高密度数据簇H0,H1,H2,…,Hr1和低密度数据簇L0,L1,L2,…,Lr2(r为各数据簇中数据编号)。最后，根据偏离性(正、负偏离)，将偏离度大的数据簇进行剔除，并设定保留原则，这样能够保证在保留大部分数据信息的同时，将偏离度大的数据簇进行欠采样。

US-D-DD算法具体步骤如下：

(1)根据航程数值划分成n类；

(2)计算每个航程油耗均值，并线性拟合，得线性方程式y=ax+b；

(3)计算每个航程均值的偏离度D；

(4)选定偏离阈值D’，将一定偏离度区域内的航程数据集定义为Dd；

(5)对于选出航程分别选定密度阈值T；

(6)根据密度阈值将数据划分为高密度数据簇H0,H1,H2,…,Hr1和低密度数据簇L0,L1,L2,…,Lr2并进行聚类；

(7)根据偏离性和保留原则，将偏离度大的数据簇进行剔除。

1.2 油耗均值偏离性

实际飞机油耗预测领域中，航油消耗量会随着航程的增加而增加，即航程与油耗呈正相关趋势。然而多数情况下的飞机油耗都会存在着因为业载、飞行时间、风速等原因而导致部分航程油耗消耗相对较多/少的问题，从而这部分航程的整体数据会整体偏上/下，偏离了线性增长这一趋势。在航程较疏散的部分，拟合时会出现航程与油耗呈负相关的趋势，若增加某一新的航线(对应新的航程)，会导致油耗预估的区间整体严重偏离；在航程较密集的部分，由于部分航程数值的偏离，拟合的结果会因此而受到扰动，影响区间的变化趋势，导致结果不够准确。基于此，考虑到了数据偏离性(deviation)分布特点，去除了少数航程对整体结果的影响。偏离度的表达式为

(1)

式中：D为航程油耗均值偏离度；A为目标数据，即运用每个航程对应的所有油耗数值的均值得出的线性拟合函数，从而求出的每个航程在该函数对应的数据为目标数据；X为实际数据，即每个航程对应的实际油耗均值。并且，定义均值高于拟合线时称“正偏离”，低于拟合线称“负偏离”。

1.3 油耗数据密度分布

考虑油耗数据集密度分布的不均衡性，按照密度的大小可分为高密度和低密度数据簇，高密度数据簇数据相对集中，更能象征整体数据，能够提供足够的样本信息，可视为可靠样本，在样本数量和可靠性两方面优于低密度数据簇的样本，所以在欠采样过程中尽可能保留高密度数据簇中的样本[14]。而低密度数据簇分布相对稀疏，没有能够提供足够的样本信息，对聚类会产生一定的干扰，可视为不可靠样本，所以应该尽可能删除这部分数据。

具体方法如下，给定一个小区域上的数据集，任意选定某个样本点为P，以P点为中心、l为半径的区域数据是均匀分布的，密度由ρ=m/l给出，其中m是该区域内除P以外的点数。例如，图1和图2分别代表航程为3815 km所对应的实际油耗图(物理意义)和数据密度示意图(数学意义)。

图1 实际油耗

图2 密度变化

图1对应航程为3815 km时的所有油耗数据按照数值大小排列组成数据集Dd，计算每个样本点的数据密度，得到密度变化示意图(图2)，其中，横轴为同一航程油耗数据样本点Dd，纵轴为样本点对应的数据密度ρ(Dd)，并且设定用于区分高密度数据簇和低密度数据簇的密度阈值为T，则可以找到的3个高密度数据簇簇为T1、T2和T3，数据集中不属于任何集群的簇则视为低密度数据簇。将油耗值划分成多个数据簇后，根据偏离性和保留原则进行欠采样，如航程3815 km为正偏离，则根据保留原则仅剔除偏离度大(油耗值大)的数据簇。其中，密度阈值T可以由该区域高、低密度数据簇划分所需的最小点数指定。按照密度将数据进行聚类是为了可以将密集且靠近的数据点组合成一个集群，这样的集群代表的数据特征相似。

2 基于相关向量机区间估计模型

相关向量机(relevance vector machine，RVM)是tipping提出的相关向量机的稀疏概率模型、统计学理论研究在近年来产生的一种监督学习方法。该算法最大的优点是极大地减少了核函数的计算量，克服核函数必须满足Mercer条件，并且具有检测速度快、可以获得概率输出、对小样本具有明显的优势、泛化性能好、适用范围广等特点。

ti=y(xi,w)+εi

(2)

式中：w为模型权值，w=[w0,w1,…,wN]T，样本噪声εi～N(0,σ2)，则p(ti/xi)～N(ti/y(xi,w),σ2)。则RVM的输出函数y(x,w)，y(x,w) 定义为

(3)

(4)

式中： Φ∈RN×(N+1)是核函数矩阵。

根据SVM中的结构风险最小化原则可知，根据上式求得的训练样本的似然函数容易导致严重的过拟合现象，所以为了使模型具有稀疏性，为权值定义高斯先验概率分布

(5)

式中：αi是决定连接权值wi先验分布的独立超参数，α=(α0,α1,…,αN)T。

由贝叶斯准则计算连接权值后的后验概率分布为

(6)

其中

μ=σ-2ΣΦTt

(7)

Σ=(σ-2ΦTΦ+A)-1

(8)

A=diag(α0,α1,…,αN)

(9)

可以看出相关向量机的权值w可以由超参数α、σ2计算得到，用贝叶斯框架计算超参数的似然分布为

(10)

式中：C为协方差，C=σ-2I+ΦA-1ΦT。

由MacKay迭代法求解最优超参数

(11)

(12)

tγk=1-αkΣkk

(13)

式中：μk为第k个后验平均权值, Σkk是矩阵Σ的第k个对角元素，γk∈[0,1]。对上述公式重复进行RVM模型的训练不断更新两个超参数，直到满足收敛要求或达到最大迭代次数，训练停止。剩下的非零权值和对应的训练样本称为相关向量。

若给定一组数据x*，则对应的输出为

t*=Φ(x*)μ

(14)

(15)

式(14)、式(15)代表预测数据集对应的均值和方差。

3 实验过程与结果分析

3.1 数据获取

为验证US-D-DD方法的有效性，本文选取QAR数据中A330机型2013年各航程飞机油耗数据为样本进行飞机油耗区间估计研究。数据中包含35个航程，每个航程对应着不同数量的油耗值，传统的点预测方法很难全面描述油耗的变化范围，所以对其区间估计更为合理。

3.2 模型流程

对于油耗数据，首先按照航程的数值进行划分，并对油耗数据的野值剔除预处理；接着计算出每个航程油耗的均值并进行线性拟合，根据偏离度的公式计算出每个航程相对偏离线性方程的偏离度；选定偏离值D’，偏离值小于D’的航程数据不进行处理；对于偏离值大于D’的航程进行油耗数据密度计算，并进行聚类，根据偏离性及聚类结果进行欠采样，并根据偏离度设定保留原则；最后将欠采样后的数据运用区间估计模型进行运算，并用评价指标对结果进行评估。US-D-DD飞机油耗区间估计流程如图3所示。

图3 US-D-DD飞机油耗区间估计流程

3.3 评价指标

合理的误差分析能对所使用的方法进行恰当的评判，本文选取以下4个指标对区间估计结果进行有效性评估。

(1)估计区间覆盖率EICP(estimation interval cove-rage percentage)是衡量区间质量最关键的指标，表达的是实际观测点落在区间内的概率

(16)

式中：ξ(1-α)为置信度1-α下实际油耗值落入估计区间的数量，本文选取置信水平95%，EICP用于评估所构造区间的可信度，其值越大，可信度越高。

(2)区间平均宽度MWP(mean width percentage)是评估区间质量的重要指标，该指标度量了固定航程的估计区间宽度占该航程油耗值的百分比。在飞机油耗预测问题中，飞机的燃油消耗量往往受不同风向、风速、驾驶员飞行习惯等多种不可控因素的影响，同一航程产生的油耗却相差很多，且航程越长，油量消耗越多，宽度也应更宽[13]，因此以相对宽度比绝对宽度更具有实用价值

(17)

式中：U(xi)，L(xi) 为第i个样本的上界和下界(采用相对宽度)，ti是固定航程对应所有油耗值。MWP用于评价结果描述不确定信息的能力，其值越小，估计精度越高，不确定性程度越小。

(3)平均累积偏差MAD(mean accumulated deviation)，除常用的区间覆盖率和区间平均宽度之外，还应对区间之外的点相对于区间的偏离程度进行统计，表达式为

(18)

式中：εi表示观测值偏离估计区间边界的程度，表达式为

(19)

累积偏差与区间平均宽度类似，其值越小，区间质量越高。

(4)区间估计满意度EISI(estimation interval satisfaction index)，由于EICP越大，说明区间质量越高，而MWP、MAD越小，说明区间质量越高，这3个指标相互独立，且相互冲突，所以综合考虑这3个指标，提出区间估计满意度来综合评估，表达式为

EISI=[1-λ·(1+η·MAD)·MWP·(μ-EICP)]×
100%

(20)

式中：λ，η是EISI中的惩罚系数，可以根据需求进行选取；μ为给定的置信水平。

3.4 结果与分析

本文实验首先按照航程的数值进行划分(选取的数据航程数为35)，并进行野值剔除预处理，计算出每个航程油耗的均值并进行线性拟合，拟合结果如图4所示。

图4 油耗均值线性拟合结果

拟合线性方程式为：y=6.6789x+3.231·103，可以看出航程与油耗基本正相关的趋势。

根据式(1)偏离度公式计算出每个航程相对偏离拟合线性方程的偏离度，如图5所示，偏离度按照数值可划分为5组，其中大部分航程的偏离度在0-0.05的区域，这部分航程的油耗数据保留，即选取D’=0.05，偏离度小于D’的航程数据保留，得到偏离度较大的1000、1506、1719、2092和3815(单位km)这5个航程及其正负偏离性，见表1。

表1 偏离度>D’航程

图5 偏离度分布

其中导致航程油耗较多的主要原因是业载过大，例如航程3815 km相较于邻近航程4474 km，其业载(包括人、油、货)均值偏高了5×103kg。对这5个航程的油耗数据，本文采用DBSCAN算法，设置样本领域包含点数和半径为m1=3，l1=60、m2=3，l2=55、m3=6，l3=60、m4=4，l4=100、m5=4，l5=300，得到数据密度大于密度阈值的多个数据簇，对于这部分数据簇结合偏离性进行欠采样，并采取以下4种保留原则，见表2(所属偏离度区间为1-4，并采取a-d这4种欠采样保留原则)。

表2 欠采样保留原则

将原始油耗数据运用相关向量机区间估计模型进行运算得到每个航程的上下边界，对35组上下界边界值进行多项式拟合。一般情况下，多项式拟合的阶数越高，精度就越高，拟合的曲线越贴近实际数值，但是阶数超过一定数量，就会产生过拟合的现象，求解的系数可能是不准确的。一般会采用相关系数和最大残差来评价拟合结果，而本文是飞机油耗的区间估计，且数据包含同一自变量对应不同因变量的情况，所以对于“最优阶数”仍选择区间覆盖率、平均区间宽度、平均累积偏差，以及区间估计满意度来评价拟合结果。

由于n=12时出现了上下界剧烈变化或交集的现象，所以选取n为1到11进行对比。由表3可以看出，当欠采样保留原则为a时，即使用原始油耗数据进行飞机油耗区间估计时，在n=9处，区间估计满意度综合指标最好，运用US-D-DD模型前区间估计结果如图6所示。

表3 各阶数拟合评价指标对比

图6 原区间估计结果

将US-D-DD模型运算后的4种结果采用n=9阶进行多项式拟合，并将运用US-D-DD模型前后的结果进行对比分析。其中Aa-Ad分别代表根据不同保留原则运用US-D-DD模型前后，评价时包含5个偏离度大于D’的全部航程进行的综合指标评价结果；Ba-Bd分别代表根据不同保留原则运用US-D-DD模型前后，评价时不包含5个偏离度大于D’的航程(共30个航程)进行的综合指标评价结果。由表4可以看出，经过US-D-DD模型运算后，b-d这3种保留原则相比较保留原则a，估计区间覆盖率均有多提高，平均区间宽度和平均累计偏差均有不同程度的减少，并且对于区间估计满意度这一评价指标，保留原则d取得了更好的结果(区间估计结果如图7所示)，可以看出保留原则并不是将数据保留的越多或者越少就会达到最好的效果，而是应该结合偏离度区间来对数据进行合理的欠采样保留原则设置，也说明了对于部分数据的偏离而影响到整体区间估计结果时应利用数据的偏离性和密度分布等分布特点来取得更好的区间估计结果。

表4 4种情况结果对比

图7 US-D-DD模型区间估计结果

并且对比图6和图7可以看出，图7的区间更符合航程与油耗正相关的趋势。在航程较疏散的部分，航程与油耗呈负相关的趋势得到缓解，在航程较密集的部分，部分航程数值的偏离对拟合的结果产生的扰动也有所减少。

4 结束语

本文针对点估计无法描述实际飞机油耗潜在的随机性，以及部分航程由于业载等原因导致油耗相对较多/少从而影响整体区间估计结果的问题，利用区间估计能够对由不确定性因素引起的预测结果变动范围进行量化和基于密度聚类的方法能够将密集且靠近的数据点组合成一个集群的优势，对于偏离度较大的油耗数据，提出了基于数据偏离性和密度分布欠采样的飞机油耗区间估计模型(US-D-DD)，并给出综合评价指标将运用US-D-DD模型前后的结果进行对比分析。结果表明本文提出的模型取得了更好的区间估计结果，对飞机油耗的整体区间估计有改进作用。该方法可进一步推广到其它机型、航段，为航空公司进行油耗估算提供了参考方法。进一步的，如何自适应地确定阈值和研究其它改善区间估计效果的方法将会是今后进一步的工作任务。