基于k-means的机场终端区对流天气场景识别
2021-12-20郭聪聪陈博伟
王 洪,彭 瑛,郭聪聪,陈博伟
(南京航空航天大学 民航学院,南京 211106)
在面临多变的对流天气时,管制员会依据历史上曾经相似的场景发布同一流量管理策略.Tien[1]等将航路和终端天气预报转化为天气影响场景,根据欧几里得范数和高斯核定义的成对相似性聚类.Michael[2]等采用半监督学习算法,通过距离度量终端天气预报的天气特征,识别给定日期所属类别的相似日.Grabbe[3]等利用最大期望算法将机场的天气和预计到达率作为特征进行聚类,分析不同情景下实施地面延误程序的概率.Chen[4]等使用机器学习技术对气象和风况等天气影响因素聚类,输出天气对机场产生相似影响的结果.许逸凡[5]等从机场航空例行天气报告中获取天气特征聚类.马莉[6]等以冰雹云的形态特征、基本反射率因子两方面为特征聚类.范文[7]采用K均值聚类评分对暴雨/冰雹进行模型分类.朱晔[8]提出了一种基于密度信息的K-中心点算法应用于雷暴聚类.
在天气相似日方面的研究较为成熟,主要根据机场终端区及其附近区域航路的天气预报信息,将其转换为影响空域运行的天气特征,利用聚类方法划分影响程度不同的天气场景,或是用来预测具体的天气类型,在构建特征时往往未考虑空域特征,即未考虑对流天气面积、对流天气在空域中所处的位置等是否对空域运行能力产生影响以及影响的大小.因此,为满足空中交通流量管理的需求,协助发布空中交通流控措施,以减轻管制员工作负荷,从而提高空域运行能力.本文从终端区的角度出发,构建特征时融入空域特性思想,不仅考虑气象报文的天气特征,还考虑了突出空域特性下的天气特征,通过聚类算法分类,以广州终端区在对流天气影响下的日期采集样本数据进行实验,获得不同聚类的对流天气场景.
1 方法设计
在有对流天气的情景下考虑空域结构与交通流走向构建天气与交通特征,并对特征进行筛选,确保特征与空域通行能力因素相关,最后对特征变量降维,作为聚类模型的输入数据集.
1.1 对流天气特性分析
对流天气往往伴随着积雨云,能见度低下且有降雨的发生,威胁航空器的安全飞行[9].当对流天气发生在机场及终端区附近,如天气大面积覆盖跑道上空区域或进离场航路航线网络,在某一繁忙时段中多架航班同时驶向该区域时,管制员工作负荷增加,忙于为多方提供空中交通管制服务,对航班起降造成一定的影响.因此,根据对流天气面积对空域容量,航班流量的影响,在已有研究中选取天气危险指数(WSI)[10]作为特征.WSI指空域被危险天气覆盖的比例,表示为:
(1)
其中:研究空域的面积为S,被危险天气覆盖的区域面积为SWs.
不仅天气面积大小与空域通行能力有关联,天气所处的位置也会影响航班.当某条交通流上覆盖零散的对流天气块时该交通流的通行能力下降,下降程度视天气块而定.设被研究多边形扇区空域由顶边、底边、源边和汇边构成,可用流容比(AFCR)[11]基于最大流最小割理论, 反映某飞行方向受到天气影响时可用空域容量的缩减程度.因此,选择AFCR作为特征.第f条交通流在对流天气影响下的AFCR表示为:
(2)
除了考虑对流天气与空域的关系等外部因素外,再从对流天气的内部因素出发,按固定时间间隔对机场的气象情况进行观测,从机场例行天气报告(METAR报)中获取信息,包括风向、风速、阵风、云类型、云底高、能见度等,即考虑对流天气所具有的天气属性对空域通行能力的影响.
以上三方面为本文所选取特征,从对流天气外部与内部出发,为以下采用聚类算法划分不同对流天气场景作支撑.其中,METAR报起辅助判断聚类特点的作用,在进行结果分析时主要以WSI和AFCR为主要依据.
1.2 空域划分
由于WSI和AFCR特征数据的获取需结合空域和交通流情况.因此,为研究对流天气位于不同区域对空域通行能力的影响,以广州机场终端区及其附近区域为例,按照一定规则将其分成不同的区域部分.划分区域具体规则如下.
以白云国际机场塔台作为基准点,将一个长40 km,宽10 km的矩形区域称为机场塔台空域,该空域被划分为A~D四部分(见图1).规定距离机场塔台30 km的一个圆形区域称为近机场空域,该空域被划分为E~H四部分(见图1).
图1 机场塔台空域及近机场空域划分Figure 1 Division of Airport Tower and Adjacent Airspace
将塔台视为圆心,以其到区域扇区关键航路点的距离为半径作若干同心圆,该部分环形区域称为终端区及其附近区域扇区空域,该空域被划分为I~L四部分(见图2).
图2 终端区及附近区域扇区空域划分Figure 2 Division of Terminal Area and Adjacent Sector Airspace
广州终端区主要离场方向包括YIN、LMN和VIBOS三条航线,广州终端区主要进场方向包括ATAGA|GONO、GYA和P270|DUMA三个方向.则根据终端区进离场航班流的走向将终端区空域划分为西北向进离场空域、东向进离场空域和南向离场空域(见图3).
图3 交通流走向空域划分Figure 3 Division of Traffic Flow Direction Airspace
1.3 特征选择
前文已经将广州机场空域划分成六空域区域.在划分空域后用选取的特征WSI和AFCR将空域区域化表示,通过特征数值显示该空域的对流天气情况.即 A~L区域对应WSI特征,即WSI_A,…,WSI_L共12个特征;三个进离场区域对应ARCR特征,即WN_AFCR,E_AFCR,S_AFCR共3个特征.此外,METAR报包含风向WD、WD_L与WD_U,阵风Gust,风速WS,能见度VIS,云量FEW、SCT、BKN、OVC,云ClOUD、CB、TCU,天气类型Wx、温度T、露点Dew等报文观测信息共17个特征.
WSI与AFCR特征计算依托于对流天气避让区(WAF)产品,通过WAF产品中确定对流天气区域从而获取WSI与AFCR.WAF的更新频率为6 min,METAR报的更新频率为30 min,为了使两者的时间重叠,本文选取1 h为时间窗.在1个时间窗内WAF更新10次,METAR报更新2次,对应的特征表示为WSI_A_1,WSI_A_2,…,WSI_A_10.累计获得120个WSI特征,30个AFCR特征与34个METAR报文所含特征,共184个特征.
本文旨在确定不同类型的对流天气场景,其与空域通行能力有关.为了确保以上选择特征的准确性与相关性,先采用皮尔逊相关系数法对以上特征进行筛选,再通过聚类算法分类对流天气场景.原理是相关系数值越接近±1,说明两变量间的正负相关性越强,越接近0说明两者相关性越弱.而两变量间是否相关除了关注系数,更重要的是显著水平,如果不显著,相关系数再高该特征变量也不可取.
1.4 主成分分析
本文中为反映不同对流天气下的聚类场景,选取多维特征变量以供观察,并收集大量数据以便进行分析寻找规律.多特征变量与样本数据毫无疑问能为研究提供丰富的信息,但可能许多变量之间存在关联性,在一定程度上增加了问题分析的复杂性,盲目减少变量可能会损失重要信息,容易得出错误结论,同时造成分析困难,倘若对每个特征变量单独进行分析,那么该分析是独立而非综合的.因此要在尽量保证特征信息较少损失的前提下实现高维度数据降维,再进行聚类分析以达到对所搜集数据的有效利用.
主成分分析(PCA)[12-13]是使用最广泛的一种数据降维算法,其原理使设法将原始变量按照一定映射规则重新组合成一组新的相互无关的综合变量,即为主成分,同时结合实际问题的需求确定主成分m,以尽可能多的反映全部变量信息.根据矩阵Z建立相关系数矩阵R,反映标准化后的数据之间相关关系的密切程度.矩阵R为:
(3)
最后根据选取主成分个数的原则,特征根大于1且累计贡献率达80%~95%,最终确定主成分.
2 算法设计
步骤1 确定历史数据信息及相似性特征,以1 h为时间窗,以6 min为步长,构建样本数据集Dataset_ori.其中,每条样本特征先按空域,后按时间规则排序.即将空域A~L记为{Zi|i=1,2,…,12},交通流记为{Fj|j=1,2,3},更新次序记为{Tm|m=1,2,…,10},METAR报所含特征记为{Mk|k=1,2,…,17},更新次序记为{Tn|n=1,2},最终样本特征表示为{WSI_Zi_Tm;Fj_AFCR_Tm;Mk_Tn}.
步骤2 根据相关性及显著性程度,对样本数据集进行特征选择,移除未扰动空域流量值的特征,剩余特征按序排列,得数据集Dataset_sel.
步骤3 对选择后的特征数据集进行主成分分析,选取保留85%的特征信息,确定主成分m,作为聚类模型的输入数据集Dataset_input.
步骤4 绘制误差平方和关于聚类簇数的曲线,曲线上第一个或最显著的拐点指向最优簇数,设置为聚类簇数k.
步骤5 以簇内高相似性和簇间低相似性为目标,通过k-means聚类模型[14-15]实施聚类.对给定样本集Dataset_input={x1,x2…,xm},针对上述步骤4中结果所得到的簇数C={c1,c2,…,cm}计算最小化平方误差为:
(4)
算法结束.
3 实例验证
以广州白云机场终端区2017~2018年受对流天气的影响为例,统计得到这段时间内广州白云机场终端区受影响的天数为201 d,获得包含上文提到的184个特征的12 316个样本数据集.
首先,利用皮尔逊相关系数法对构建的特征进行选择.图4中x轴代表特征,y轴代表皮尔逊相关系数与是否显著.从图4中可看出WSI变量与y值成负相关,相关性较强;MINCUT变量与y值成正相关,相关性较强;METAR变量与y值即有正相关也有负相关,相关性较弱.图4中蓝色星形表示不显著的特征,将无关且不显著的特征剔除后,采用余下181个特征做主成分分析.
其次,对广州机场终端区的p维特征向量x=(x1,x2,…,xp)T,和特征数据xi=(xi1,xi2,…,xip)T(p=181,n=12 316)进行Z-score标准化,得标准化阵Z,随后进行PCA降维,部分主成分累计方差贡献率如图5所示.根据85%阈值,最终选取前25个主成分应用于以下聚类中.
图4 皮尔逊相关系数法Figure 4 Pearson Correlation Coefficient Method
图5 主成分累计方差贡献率Figure 5 Principal Component Cumulative Variance Contribution Rate
最后,绘制SSE关于k的曲线,图6中显示拐点所对应的k值为4,因此设置簇数为4进行聚类.
图6 SSE关于k的曲线Figure 6 SSE Curve with Respect to k
3.1 聚类结果
聚类分成了4类场景,表1显示每个类别包含的样本数以及对应的小时流量均值.其中聚类1包含的样本数最多,聚类4最少,每个聚类中流量均值分布较为均匀.
表1 k-means聚类结果Table 1 k-means Clustering Results
结合各聚类航班流量均值与流量核密度曲线,分析每个聚类对应的流量值分布情况.图7中显示聚类4流量分布最集中且流量值较大,集中于58~64架次之间;聚类3流量分布跨度大但大部分流量值较小,集中于24~43架次之间;聚类1和聚类2的曲线走势与峰值较为相似,前者集中于47~59架次之间,后者集中于41~55架次之间.各聚类间流量集中区间重叠部分相对较少,且各峰值间隔适当,可见流量集中与峰值分布合理,聚类效果较为理想.
图7 流量核密度估计曲线Figure 7 Flow Core Density Estimation Curve
3.2 空间分布分析
根据主成分的特征影响,查看每个聚类对应的原始特征数据,更清晰地了解每类的特征分布情况.将每个时间窗中表示相同区域的特征汇总,绘制六区域,即A~L区域的WSI箱线图和WNf、Ef、Sf的AFCR箱线图.下箱体线为第一个四分位数线,上箱体线为第三个四分位数线,箱体中的绿线为中位线,点代表均值,箱体外的点通常代表离群点.通过箱线图的箱体观聚类A~L区域的WSI与三交通流WNf、Ef、Sf的AFCR数值数据散布情况,进一步观察六空域区域中各聚类的对流天气场景主要受影响区域,并如何对空域通行能力产生影响.
聚类3的箱体图如图8所示.A~H区域的WSI值呈逐渐下降趋势,而WSI值与对流天气覆盖区域范围成正比,说明对流天气在机场塔台及近机场区域较为严重,跑道上空区域受对流天气覆盖面积大.终端区及其附近区域扇区空域受对流天气影响较大,且离终端区距离越近的区域天气危险程度越大.三方向的交通流也受到影响,而AFCR值与对流天气覆盖交通流范围成反比,其中西北向交通流受影响较为严重,东向交通流和南向交通流也受到影响.总体而言,各区域均受到严重程度不一的对流天气影响.
图8 聚类3箱线图Figure 8 Box Plot of Cluster 3
结果显示对流天气面积大小,覆盖位置及危险程度三者相互影响,且与空域通行能力均有关联性.当对流天气覆盖在机场塔台及近机场区域且危险程度较大时,由于覆盖跑道上空直接影响跑道的使用,从而影响航班起降,对航班流量影响较大.当对流天气覆盖终端区及区域扇区时,尽管严重程度不高且天气面积小,但刚好覆盖在进离场交通流位置,聚集于交通流及其附近区域,导致关键点受到覆盖,航班进出终端区受限制,交通流可用率越小,对航班流量影响大.或是对流天气覆盖范围大,且严重程度较高时,即使不是集中于交通流附近而是分散于各空域内时,也会造成空域容量减小,从而引发空域扇区之间的连锁反应.繁忙时段航空器数量多,经受影响严重区域时航班需绕飞改航, 导致另一区域单位时间内负荷大,通行能力减弱.
3.3 时间分布分析
各聚类对流天气的时间分布情况如图9所示.
图9 对流天气时间箱线图Figure 9 Time Box Plot of the Convective Weather
聚类4时间分布十分集中,只发生在三月.聚类3时间分布也较为集中地分布在5~8月,其中6月发生的频率最大,密度最高,该类个别案例也会发生在剩余其他月份,但该种情况极少.聚类1和2时间跨度长,几乎全年发生,但聚类1主要发生在4~8月,聚类2主要发生在6~8月,因此聚类1发生在春季的密度大于聚类2,而发生在夏季的密度小于聚类2.结合各聚类的分布情况,全年各月份均有对流天气发生,主要集中发生在3~10月,即春、夏、秋对流天气较多,冬季较少,其中6~8月对流天气活动最频繁且类型复杂.
3.4 典型日分析
随机选取典型日2017年3月18日19∶24~21∶24时段,时段流量值分别为37和34架次/h.绘制关于各区域的WSI与AFCR曲线图以及列出所在时段的机场METAR报数值,用图表方式直观地展示各区域的对流天气情况.图10(A)、(B)表明机场塔台空域与近机场空域受对流天气严重,特别是C、D、G、H空域WSI值较大,图10(C)中终端区及其附近区域扇区空域WSI值较小,其中I空域受A和B空域影响WSI值骤然增大.西北向和南向交通流通行能力受阻较为严重,但也出现直接从峰值跌落至0.此外,图中空域之间波动的时间转折点相同,说明各区域之间相互影响,且短时间内天气极端性明显,瞬息变化.
图10 关于各区域的WSI与AFCR曲线Figure 10 About WSI and AFCR Curves of Each Region
表2 METAR报文Table 2 METAR Message
此时段内的METAR报文信息见表2.风向变化多端,每次测量角度均不同,而风速较为稳定,为2 m/s,此外温度与露点温度整体趋势相同.能见度在时间片2降了1 000 m,云在时间片4出现,对航空器运行有一定影响,从而影响航班流.
4 结 语
本文根据对流天气不确定性因素、天气类型对终端区航班起降的影响,以广州终端区为例,运用k-means聚类方法,将终端区对流天气进行分类预测.结果表明本文提出的分类模型在一定程度上分类合理,符合实际的运行情况,在未来相似日天气下对管制发布流量管理策略时能提供帮助,辅助进行决策.但欧式距离还是不能很好的区分近距离的对流天气类型,因此找到合适且合理的度量对流天气相似是未来研究的重点.