大数据技术在空管系统的实际应用探讨
2016-05-30周烈瑜
周烈瑜
摘要:随着大数据技术越来越多地得到了各行业的关注,如何将大数据应用于空中交通管理系统成为一个新的研究方向。本文分析归纳了大数据技术的特点和对空管大数据概念的理解,同时以无线电干扰统计数据的建模分析为例,对大数据技术在空管系统的实际应用进行了探讨。本文希望通过实例分析,助推大数据技术的行业应用。
关键字:数据分析;空管大数据;无线电干扰;SPSS
中图分类号:v355 文献标识码:A 文章编号:1672-3791(2016)04(B)-0000-00
一.引言
随着大数据时代的到来,数据从简单的处理对象转变为一种基础性资源。空中交通管理(以下简称空管)系统作为民用航空的中枢系统,亟须寻找与大数据的结合点,利用大数据改进生产方式,优化资源配置,提升服务质量。某种意义上来说,大数据对于空管系统而言,代表着一种生产力。
二.大数据技术
大数据是指数据规模超过传统数据库处理能力的大规模数据,是需要具有全面性、洞察力和流程优化能力的革新性处理模式才能处理的海量、多样化和高增长率的数据信息资源。[1]数据信息时代先后经历了计算能力先导、存储能力先导2个阶段,随着网络应用的日趋成熟,以网络运载作为先导的网络信息时代已经开启。[2]"十三五"规划正式提出:"实施国家大数据战略,推进数据资源开放共享"。大数据,被认为是未来的石油和矿产,近年来已经被引入至交通,医疗,家居,金融等诸多领域,改变着人类的生活方式。
随着研究的不断深入,大数据普遍被认为有四个特点,业界归纳为“4V”,即Volume(数据量巨大)、Variety(数据类型多样化)、Velocity(数据时效性高) Veracity(数据真实性低)。
大数据领域有四个需要研讨的核心技术:
1、 数据采集与预处理,数据采集是通过多个数据库接收来自用户、程序、互联网以及传感器网等方式获得的各种类型的结构化及非结构化的数据,特点是并发数高,需进行负载均衡和分片。预处理则是对已收集数据进行筛选、辨析、净化等操作,去除无效数据。
2、 数据存储与管理,建立数据中心活着数据仓库,存储经过预处理的海量采集数据,并进行管理和调用。主要解决大数据可存储,可处理及有效传输等关键问题。
3、 数据分析与挖掘,数据分析及挖掘技术是大数据的核心技术。主要是在现有的数据上进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求。
4、 数据展现与应用,数据挖掘和数据分析技术可以发现潜在规律,辅助事件决策,从而提高生产效率和经济效益。就目前而言,“数据中国”侧重于以下三大领域:商业智能、政府决策、公共服务。[3]
三.空管大数据
空中交通管理过程涉及的空中交通活动呈现一个周期性过程,在空中交通活动的准备、实施、评估过程中涉及多种海量数据,我们把这些数据的总和称为空管大数据。
空管大数据囊括整个空中交通管理活动的过程数据,主要可以分为设备数据,操作数据,管理数据和环境数据。对比大数据的“4V”特性,空管系统的大数据也有四个显著特征:
1、 数据量大。根据规划2020年全国空管的设备数量将超过十万台(套)。以普通的服务器为例,长期运行的交互数据量是TB级别的,撇开数据的有效性而言,全国空管的设备数据将达到EB级别。[4]
2、 数据类型多。核心业务的数据包括雷达航迹数据、地空通信话音数据、天气数据、情报数据、报文数据、人员操作数据等,其它业务数据包括人员数据、OA数据、视频数据、媒体数据等。这中间既包含了静态数据,也包含了动态数据。
3、 数据时效性高。与其他大数据相比,空管核心业务对数据时效性有着更高的要求,例如二次雷达数据4秒刷新,甚高频设备故障切换时间要求在30秒内。因此部分数据分析如果超过时效就失去了意义。
4、 数据相对真实。其他大数据的采集过程中,数据多来自于主观意愿及传感器,据统计,59%的数据是无效的,85%的数据过于复杂。与此不同的是,空管业务的大部分数据来自一线投产设备和秉持安全生产理念的职工,数据真实性高且具有完整的格式,结构化数据占比高。
四.无线电干扰数据的简单建模分析
华东设备运维管理系统(以下简称运维系统)的上线,为空管系统各类数据的收集增添了一个新的有效途径。本文的建模分析以运维系统统计的无线电干扰数据为元数据,以IBM SPSS Modeler(以下简称SPSS)软件为工具,使用Apriori算法进行关联规则建模,并作简单数据分析。无线电干扰统计的数据量并不大,但对空管大数据的分析和应用有一定的参考价值。
(一)数据提取与净化
登录运维系统,查询近五年来登记的无线电干扰数据并导出成Excel表格,共生成无线电干扰数据2293条。由于本次建模只做简单数据分析,因此只提取部分规则性强的结构化数据,包括扇区,频率,飞行航向,业务用途,申诉地区,干扰特征,干扰类型,干扰强度,干扰规律和干扰影响。根据SPSS的测量级别分类,申诉地区测量级别为标志,干扰强度和干扰规律的测量级别为有序,其余数据的测量级别为名义。
(二)Apriori算法数据建模
在关联分析中,有几个关键数值的阈值设置很重要:
支持度(Support),表示项集{X,Y}在总项集里出现的频率,公式为Support(X→Y) = P(X,Y) / P(I) = P(X∪Y) / P(I) = num(XUY) / num(I)。
置信度 (Confidence),表示在先决条件X发生的情况下,由关联规则推出Y的概率。即在含有X的项集中,含有Y的可能性,公式为 Confidence(X→Y) = P(Y|X) = P(X,Y) / P(X) = P(XUY) / P(X)。
若支持度和置信度阈值设置过高,隐含的非频繁特征项就可能被忽略。若支持度和置信度设置过低,则可能产生无意义规则,导致过拟合问题。[5]
在SPSS软件新建的流中,添加Excel数据源节点,类型字段节点和Apriori建模节点。在数据预处理过程中发现,ACC02扇区和ACC08扇区干扰发生频率相对较高,本次建模选择以这两个扇区的数据为主要样本,设立两个模型:
模型一:以ACC02扇区干扰特征为输出的Apriori建模
筛选出ACC02扇区数据,“干扰特征”字段角色设为目标,其他字段角色设为输入,支持度设为20%,置信度设为70%。
模型二:以ACC08扇区干扰特征为输出的Apriori建模
筛选出ACC08扇区数据,“干扰特征”字段角色设为目标,其他字段角色设为输入,支持度设为20%,置信度设为70%。
(三)Apriori算法数据分析
经过SPSS建模计算,可以得到三个模型生成的各类图表数据,本次建模仅对最大前项数为5的Apriori模型表进行分析。
图表1以ACC02扇区干扰特征为输出的Apriori模型
由上表可见,ACC02扇区的干扰以广播干扰为主,支持度和置信度同时满足阈值设置的只有航路上的空中干扰。如果数据分析成立且得到进一步验证,ACC02扇区的干扰排查可以适当侧重于航路上的广播。
由上表可见,虽然ACC08扇区的干扰发生同样不少,但与ACC02扇区不同的是,ACC08扇区的广播以语音干扰和噪音干扰为主。其中127.75频率的干扰次数明显多于其他,因此常用的措施是被迫切换频率,值得重点关注。
(四) 其他常用的算法和分析方法
述的三种Apriori算法建模的功能是帮助我们从大量数据之间找到一些关联规则。而Apriori算法只是众多数据挖掘和数据分析建模中的一种,常用的建模方法还包括主成分分析,神经网络,K-Means,Kohonen等。常用的分析方法包括主成分分析,聚类分析,差异检测,数据导向决策等,每种分析方法都有各自的适用条件和优缺点,需要研究者结合实际情况合理使用。[6]
五.大数据技术在空管系统的应用前景
随着信息技术快速发展,数据收集成本不断降低,空管大数据的应用将是科研的一个重要方向。在这种背景下,我们需要做的是建立数据仓库收集海量空管数据,并合理利用工具进行挖掘分析,此外需要注意数据收集、整合与分析过程中的科学性,使得其具有一定的现实意义和操作价值,实现数据挖掘的价值。
首先,空管大数据可以优化生产管理。对于备件配置,通过对各地各系统设备实际使用率和故障率的数据统计,分析各地各系统设备所需的冗余数量,优化资源配置,降低采购成本。对于耗材采购,通过大量的数据统计和环境变量,可以尝试得出各个时期各部门各设备的耗材需求,各品牌耗材的性价比,甚至得出一些趋势预测,利于预案、预算和决策的制定。
其次,空管大数据可以用于安全管理和风险控制。现在空管系统的风险管理主要通过事前的危险源排查和事后的分析学习,这要求决策者具有优秀的业务水平和良好的风险意识,主观性较强却缺乏理论依据。而大数据分析则弥补了这一点,当数据量积累到一定程度时,通过故障数据分析,可以有效得出各设备在各种环境条件下的故障机率,列出高风险设备。此外,通过对处理过程的统计分析,可以尝试得到最优的故障排查方式,帮助一线员工的当场做出更优的决策。数据驱动的科学化管理和科学化决策将进一步提升空管系统的安全管理水平。
此外,空管数据分析还可以应用于气象预测和服务提供,管制模拟仿真,新技术新设备投产分析等。
六.结束语
尽管目前空管大数据还没有一定的标准,但是身处这个大数据的时代,整个空中交通管理活动无时无刻不在产生、收集、处理各种数据。我们是数据的生产者,也是数据的使用者。空管大数据的研究还处于起步阶段,我们需要做的是利用好大数据技术,从中挖掘出新的内涵,以期提高安全标准,提升服务品质,助推行业发展。
参考文献
[1] Yaxiong Zhao.Jie Wu .Cong Liu.Dache: A Data Aware Caching for Big-Data Applications Using the MapReduce Framework.Tsinghua Science and Technology.2014(1):39-50.
[2]李德毅.刘常昱.杜鹢等.不确定性人工智能.软件学报.2004.15(11):1583-1594.
[3]张战波.空管大数据的概念,特征和应用.中国民航飞行学院学报.2015(26):18-21
[4]高红旭.康永.郭芃.大数据技术在民航空管监控系统中的应用.现代导航.2015(02):144-150
[5]张健.王蔚.基于支持度与置信度阈值优化技术的关联分类算法.计算机应用.2007.12(27):3032-3035
[6]曹正凤.数据分析基础.电子工业出版社.2015.2.