管制运行亚健康状态的Ward系统聚类及分析
2018-10-08岳仁田贾天琪
岳仁田,贾天琪
(中国民航大学空中交通管理学院,天津 300300)
当前,随着中国民航业的迅猛发展,空中交通流量日益增大,对空中交通服务安全保障要求的提高致使管制工作压力增大,很多地区尤其是北京、上海、广州等交通要塞的管制运行处于超工作负荷状态,这种超负荷运行会对中国民航安全构成重大威胁。据民航安全记录显示,由管制造成的民航不安全事件时有发生,这说明管制运行处于安全与不安全之间的中间状态,被称为管制运行亚健康状态。但这种亚健康状态的划分范围广泛,只有将其细化分类,确定管制运行的不同状态,才能提早发现并解决可能引起事故的不安全因素,对风险关口前移具有重要的现实意义。
有关空管安全方面的研究,国外与国内的研究侧重点有所不同,国外更侧重于技术、程序的创新研究和管制过程中飞机冲突及排队等问题的改善。Bentley等[1]指出空中交通管理中最重要的安全要求是技术和程序的增量开发,提出了一种ATC信息显示的方法。Vismari等[2-3]提出了数字通信导航/空中交通管理模式的定量评估,其后又结合相对与绝对安全评估方法提出了一种基于流体随机Petri网模型,并和遗传系统模型中的仿真安全指标进行了比较。Hu等[4]使用新的遗传算法研究了飞机到达排队和调度问题。国内的管制运行研究多集中于管制运行品质评价、管制运行风险识别、管制运行效率评估等方面。张建平等[5]采用主成分分析法建立了定量的单跑道终端区管制运行品质评价指标体系并证实了方案的可行性。刘泓妤等[6]从机场管制运行过程角度出发,构建风险源集合并结合中介真值程度度量理论给出风险源排序模型。王骞[7]使用TOPSIS法对管制运行潜在风险因素进行排序并构建了基于改进模糊物元的区域管制运行风险评估模型。林欢[8]提出管制运行效率的定义,建立了适合中国民航现状的管制运行效率评估模型,提出了基于实际运行数据的管制运行效率评估方法,实现了管制运行效率评估系统的设计和开发。王梦丽等[9]结鉴人-机-环-管系统思想建立了初始机场管制系统运行效率评估指标,利用主成分分析法获得综合评价指标,最后结合数据包络分析法对机场管制系统运行效率进行评估。
从已有的国内外空管安全相关研究可发现,由于国情与实际空管运行情况的不同,国外以研究正在发生的问题为主,如解决航空器冲突和飞机起飞着陆排序等问题,国内研究则更多为对未发生事件的把控,如风险识别、效率评估等。而识别管制运行潜在风险因子的范围过于广泛,且不同管制运行状态下,运行风险程度及影响因素也不尽相同。但目前关于管制运行状态的描述及划分研究很少,而管制运行状态的研究不仅可以明确当前管制运行所处状态便于“对症下药”,也为风险识别、管制运行评估等问题的研究奠定细节划分基础。因此有必要对管制运行状态进行划分研究。根据北京部分扇区经验管制员的工作数据,分析管制运行状态的评价变量,并使用R语言实现聚类分析法对样本进行分类,从而定义、划分管制运行状态。
1 基于工作负荷的管制运行状态评价变量
管制运行状态的评价主要从空管运行指标方面着手,从管制运行的工作内容看,其主要是通过一系列的通信、导航和监视手段来保证空中交通的安全实施。主要工作均离不开管制员的操作,在一定程度上造成了管制员的工作负荷,并且这种长时累积的工作负荷将使管制运行状态变差,所以基于管制员工作负荷方面提取管制运行状态的评价变量展开研究显得尤为重要。
考虑到聚类分析管制运行状态是通过对多个数据样本进行聚类,每一个样本的各个指标需要反映的是同一时间段的运行状态,所以依据北京部分扇区的管制运行数据,选取了单位时间内基于管制工作负荷的管制运行状态评价变量,如表1所示。
表1 管制运行状态评价变量Tab.1 Evaluation variables of control operation state
2 系统聚类分析步骤
聚类分析法是一种研究“物以类聚”的现代多元统计分析方法,旨在根据数据特征把需要进行分类的对象按照一定规则分成若干类[10]。系统聚类是指将每一个样本看成一个类,通过计算样本间距离把距离近的样本聚成一类,直到所有样本分别聚到与其最相似的类中。系统聚类常使用最短距离法(Single)、最长距离法(Complete)、类平均法(Average)、中间距离法(Median)、重心法(Centroid)、离差平方和法(Ward)6种方法。采用系统聚类的方法将不同样本分类,分析判断某类样本处于哪种管制运行状态,并使用统计分析软件R语言来实现。
系统聚类的一般步骤[10]包括:①计算n个样本两两间的距离;②构造n个类,每个类只包含1个样品;③合并距离最近的两类为1个新类;④计算新类与当前各类的距离,若类数为1,转到步骤⑤,否则回到步骤③;⑤画聚类图;⑥决定聚类个数和类。
3 数据处理与分析
3.1 管制运行样本数据处理
数据来源于经验管制员在北京部分扇区的管制运行数据,扇区包括北京01、19号扇区、北京14、15号扇区、北京02、13号扇区以及北京06号扇区。1个样本即单位时间内包括的通话次数、通话时间、设备操作次数、设备操作时间、同时监管航空器架次峰值共5个指标组成的1组数据。此处的单位时间为数据收集时选取的测量时间片3 min,对原始数据进行整理统计后得到60组样本。原始样本数据如表2所示。
3.2 聚类分析的R实现及方法优选
首先将样本数据导入R语言中,对数据进行标准化处理后生成距离矩阵,距离矩阵即为每组样本两两间距离组成的矩阵,两组样本数据中每个评价变量间的距离分别表示对应评价变量的相近程度,如第1组与第2组样本数据中单位时间内通话次数间的距离表示该评价变量(16,17)的相近程度,而将每个评价变量间距离综合起来的距离即表示两组样本数据的相近程度,聚类分析选择将相近程度高的样本划分进同一类别中;然后分别使用最短距离法、最长距离法、中间距离法、类平均法、重心法以及离差平方和法依据距离矩阵获得聚类结果,其运行结果如图1所示;其次使用NbClust()函数获得6种聚类方法的推荐聚类个数,运行结果如图2所示。
表2 管制运行状态评价变量样本Tab.2 Evaluation variable samples of control operation state
图1 6种聚类方法的聚类结果Fig.1 Clustering results of six methods
图2 6种聚类方法推荐聚类个数Fig.2 Clustering number recommended by six methods
分析R语言运行结果可知,Single法推荐将60组样本分为2类或11类(第二推荐),结合样本数据分析这种聚类结果偏向于将具有明显差异的样本分开,且每类样本没有明显分类特征,说明Single法很可能将代表不同管制运行状态的样本划分到一类中;Complete法推荐将样本分为3类,观察这3类的各个样本值以及这3类的中间值与60组样本中间值之间的关系,可发现分类呈现出一定的管制运行健康与亚健康的区分,但界限不够明显;Median法推荐将样本分为2类或5类,分为2类时倾向于将样本数值较小的分为一类,数值较大的分为另一类,但将其分为5类时,分类结果呈现出管制运行的健康与亚健康分界;Average法将样本分为2类时与Single法相同,当将样本分为4类时,分类结果呈现的管制运行健康与亚健康分界较为明显且存在现实意义;Centroid法对样本的分类结果与Single法分类相似,没有明显的分类特征;Ward法首推荐将样本分为2类,但其不同之处在于分类较为均衡,不存在个别分类只有一个样本的情况。
考虑到各个方法在划分成3~5类时均呈现一定的管制运行健康与亚健康状态的分界,而当划分为4类时对管制运行状态的描述更为合理,分别使用6种方法将样本数据分为4类,从划分结果发现Ward法与Complete法和Average法划分的结果相似,说明这种分类方法是可取的,结合各个划分方法的优缺点及分类效果最终选择使用Ward法将数据样本聚类为4类。运行结果如图3所示。
图3 Ward法聚4类结果图Fig.3 Four-category clustering result by Ward method
4 Ward法结果分析及管制运行状态确定
从图3可看出Ward法将管制运行样本分为4类,这4类样本分别代表一种管制运行状态,通过4类样本中间值以及每类中的样本数据与全部样本数据中间值的对比分析,将管制运行状态划分为管制运行健康状态、偏向健康状态的不稳定亚健康状态、稳定亚健康状态以及偏向发生不安全事件的不稳定亚健康状态。为方便清楚观测各类数据差别以及状态的划分依据,将聚类分析运行结果汇总如表3所示,并对表3数据进行详细分析。
表3 Ward法聚4类运行结果汇总Tab.3 Four-category clustering operation result summary of Ward method
从表3数据可以看出第2类各指标的中间值与60组样本各个指标的中间值 C(C={20,82,19,42,15})相比,相差较大且均低于C,观察原始样本数据可以发现第2类8个样本的各指标与C相比,除个别样本的个别指标比C略大一点外,其余数据均低于C,说明处于这一运行状态的管制员工作负荷很小,可没有压力地完成管制工作,所以将这种管制运行状态定义为健康状态。
将第1类样本指标的中间值与C对比可以发现,除指标X1比C中对应的指标略大一点外,其余指标均小于C,但小的程度没有第二类大,且样本数据中存在少量指标超过C,说明此时管制员可以完成管制工作且工作负荷不大但已经有一定的工作压力,所以将这种管制运行状态定义为不稳定亚健康状态,且这种不稳定亚健康状态更倾向于向健康状态变化。
将第3类样本指标的中间值与C对比可以发现,除指标X4比C中对应指标略小一点外,其余4个指标均超过C,但超过范围不大,且样本数据中处于该类的每一个样本均有3~4个指标超过了C,说明此时管制员虽可以完成相应管制工作,但其管制工作负荷较大,所以将这种管制运行状态定义为稳定亚健康状态。
将第4类样本指标的中间值与C对比可以发现,部分指标大范围超出C,观察样本数据发现除少数样本的个别指标略小于C对应的指标值外,其余指标均超过C且大部分指标大范围超出C。这说明此时管制员工作繁重,工作量已大大超出正常运行能力范围,如果长期使管制员处于这种管制运行状态下,将很有可能导致不安全事件发生,因此将这种管制运行状态定义为不稳定亚健康状态,且该不稳定亚健康状态有向发生不安全事件状态的转变趋势。
通过计算可知,北京部分扇区管制运行状态仅有13.3%处于健康状态,而86.7%处于亚健康状态,大部分管制运行状态都处于亚健康状态可能与北京航线及空中交通流密集导致管制员工作量过大有关。而亚健康状态中,25.1%为稳定亚健康状态,23.3%为偏向于健康状态的不稳定亚健康状态,38.3%为偏向于发生不安全事件的不稳定亚健康状态,如果及时采取适当措施,将可能使偏向于健康的不稳定亚健康状态转归为健康状态,将偏向于发生不安全事件的不稳定亚健康状态转归为稳定亚健康状态。
5 结语
首先依据管制数据建立了管制运行状态的评价指标体系,对数据进行整理计算后,分别使用最短距离法、最长距离法、中间距离法、类平均法、重心法以及离差平方和法6种聚类分析方法将60组样本进行聚类,分析后最终选择使用Ward法将样本分为4类,通过分析4类指标的中间值、数据样本与60组样本中间值的关系,对4种管制运行状态进行了新的定义,给出了管制运行的健康状态、稳定亚健康状态以及不稳定亚健康状态概念。对管制运行亚健康状态的界定为防止事故的发生奠定了基础,同时也为管制运行亚健康状态向健康状态转归提供了必要条件。
根据经验管制员的管制运行数据确定管制运行状态,以不同水平管制员的管制运行数据分析管制运行状态,并在分类完成后,对某一样本进行判别,确定其所处状态,今后可在以上方面继续展开研究。