基于Logistic 回归模型的航材外站配放策略
2022-10-08阚士行王峥山东航空股份有限公司工程技术公司
■ 阚士行 王峥/山东航空股份有限公司工程技术公司
0 引言
航空公司航线网络具有点多、面广、线长的特征。为保障航线网络的畅通,航空公司需要在主基地之外的航站配放一定量的过站常用航材。目前,大部分航空公司采用历史经验数据决定某一航站是否配放航材,决策过程缺少数据定量分析支撑,存在标准不一、经济性低的情况。本文以SC 航空公司外站配放航材为例,通过建立Logistic 回归模型,为外站航材配放提供决策数据支撑,并通过ROC 曲线选定最优阈值,评估模型的优劣。
1 模型简介
1.1 Logistic 回归模型
针对连续型因变量,可以应用线性回归对因变量进行解释或预测。但对离散型因变量,尤其是二分类因变量,只有“行”与“不行”、“0”与“1”的区别,这时就要应用Logistic 回归进行分析。
对线性回归表达式y=wTx,y的取值为(-∞,∞),但想获得的是一个在[0,1]之间的值。因此,需要一个转换函数将y值转换成[0,1]之间的值。这个函数称为Logistic函数,又称为Sigmoid函数,如图1 所示。
图1 Sigmoid函数
构造Sigmoid 函数为
式中,对分类结果分别为1 和0 的概率为
一般设定阈值为0.5,即
1.2 ROC 曲线
ROC 曲 线(Receiver Operating Characteristic Curve)又称为受试者工作特征曲线。简单来讲,对一个二分问题,即实际分为正类(Positive)和负类(Negative),针对该实例进行预测,会有4 种结果,如表1 所示。
表1 二分问题混淆矩阵
定义
其中,TPR(灵敏度,sensitivity)为在所有实际为1(Positive)的样本中,将其正确地判断为1(Positive)的比率;TNR(特异度,Specificity)为在所有实际为0(Negative)的样本中,将其正确地判断为0(Negative)的比率;FPR(1-Specificity)为在所有实际为0(Negative)的样本中,将其错误地判断为1(Positive)的比率。
如果一种预测方法能够使TPR 变高、FPR 变低,那么这种方法能够有效区分样本。但这两个指标相互制约。若某方法比较敏感,稍有指征即判断为1(Positive),则TPR 会很高,但同时也会将很多实际为0(Negative)的误判为1(Positive),即FPR 会很高。在最极端的情形下,所有样本都判断为1(Positive),那么TPR 值为1,FPR 的值也为1。
根据不同的阈值,将大于该阈值的判断为1(Positive),小于该阈值的判断为0(Negative),则会得到相应的(FPR,TPR)值,将其描绘在坐标轴中,得到相应的ROC 曲线。可见,ROC 曲线是一个很好的分类器。
图2 是一个ROC 曲线的例子,图中黑色曲线为ROC 曲线,浅蓝色区域的面积 为AUC(Aera Under Curve)。AUC为衡量分类器优劣的一个指标。一般来讲,若AUC 为0.5,即图中正方形对角线(灰色直线),则该分类器没有预测价值,等同于随机猜测;AUC 越大越好,一般在0.8 左右,该分类器即有较大的应用价值。使AUC 最大的阈值,是所需要的。
图2 ROC曲线
2 模型应用
2.1 Logistic 模型的建立
以本文为例,因变量为二分类变量,
自变量包含4 个参数,分别为SC公司过去1 年在该航站的航班量(X1)、该航站距离最近基地航司的距离(X2)、SC 公司在该航站历史上是否发生过故障(X3)以及该航站其他航司相应资源数量(X4),其中X3样为二分类变量。
对SC 公司69 个航站收集数据如表2 所示。
表2 SC公司航站数据
通过R 语言应用Logistic 回归,得到如表3 所示的结果。
表3 Logistic回归结果
X2的P 值稍大于0.05,结果不显著。但若将X2剔除后重新进行Logistic 回归,得到如表4 所示的结果。
表4 将X2剔除后的Logistic回归结果
包含X1、X2与X4三个自变量的Logistic 模型的AIC(赤池信息量)为56.11;包含X1、X4两个自变量的Logistic 模型的AIC(赤池信息量)为59.76。从AIC 看,应当选择包含X1、X2与X4三个自变量的Logistic 模型。
综合考虑,认为包含X1、X2与X4三个自变量的Logistic模型较为合理。最终Logistic 模型公式为
2.2 ROC 曲线的应用
根据公式(1),利用R 语言做出ROC 曲线,如图3 所示。使得AUC 最大的阈值为0.76,即Y值大于0.76 的,预测为1(positive),否则预测为0(Negative)。
图3 模型应用得到的ROC曲线
当阈值为0.76 时,针对原始数据应用回归模型测算混淆矩阵如表5 所示。
表5 预测结果混淆矩阵
此时,AUC 为0.902,区分度较好,此阈值下ROC 曲线为一个较好的分类器。同时,若按照预测结果进行配放,则能节约13%的配置成本。假设SC 公司外站配置航材总成本为200 万元,可通过该模型减少26 万元的航材配置。
若选用包含X1、X4两个自变量的Logistic 模型测算AUC,其AUC 仅为0.695,此时阈值为0.6。此阈值下ROC曲线的AUC 仅稍高于0.5,分类效果较差。
2.3 应用案例
若某新开飞航站预计未来一年航班量为360 班次,与最近的基地航司距离为500km,该航站其他航司资源数量为0,计算得到的Logistic 模型的概率为0.96,大于阈值0.76,则应在当地配放航材。
3 总结
本文通过以上分析建立了较好的分类模型,可为后续在外站是否配放航材提供了定量的数据支持,便于施行统一的航材外站配放标准,节约航空公司外站配放成本。