APP下载

民机运行大数据全寿命周期处理技术研究

2018-02-05

计算机测量与控制 2018年1期
关键词:民机手册结构化

, ,

(1.上海民用飞机健康监控工程技术研究中心,上海 200241;2.上海帕科网络科技有限公司,上海 200233)

0 引言

民用航空每年都产生了巨量的数据,为了用好这些数据,各大主制造商和航空公司纷纷构建起自己的大数据平台。2015年6月巴黎航展上,空客、波音等民机制造业巨头纷纷与微软、IBM等IT企业开展合作,希望通过利用大数据来探索提高竞争力的新方式[1]。2015年底GE将30多年积累的发动机数据全部迁移至Predix大数据平台,利用资产性能管理系统(APM)监控全球34,977 台在翼发动机,每天接受处理22万个数据报文,每年超过1亿条报文,对这些数据进行综合分析,并根据分析结果确定发出警告的等级。波音已将他们基于大数据的飞机性能分析应用、AHM飞机健康管理服务转移至微软Azure云计算平台上,航空公司使用这种应用来预测维护需求,目前,用户超过300家航空公司。波音公司2014年度市场预测报告显示各大航空公司都在积极研究能够提供故障预测功能的整机和关键部件,例如发动机的健康管理解决方案,为其库存管理以及零部件采购提供建议支持,从而降低航空公司的运营成本。空客也已将AirTHM(空客实时健康监控)迁移至云平台,向用户提供基于大数据的健康管理服务。据SAP介绍,一家生产飞机零部件的大公司在使用其大数据分析HANA软件后,在库存费用方面可以节省了近200万美元,在生产流程方面可以缩短了25%的时间,在组装库存方面可以降低30%,同时减少了40%的员工加班费用。

中国民航飞机在大数据应用方面,在基于民航协同系统[2],航空维修信息应用[3]及航空安全数据收集[4]方面有一些研究,但在系统架构方面还没有自身的大数据平台。有必要构建民用航空运行大数据平台,为已经交付ARJ21以及未来的C919、宽体等系列国产客机的诊断、评估[5-6]以及运营提供服务支持。本文基于民用航空大数据分析应用平台,对民机运行大数据全寿命周期的处理技术进行了研究。

1 民机运行数据源分析

1.1 民机运行大数据来源

民机运行过程中会产生大量数据,按照应用系统类型民用飞机数据种定义为设计文件、维修相关手册、运行数据、维修管理数据、ERP数据等。其中,设计文件包括系统设计文件、维修分析文件、系统接口控制文件、数据通信规范文件等。维修相关手册包括飞机故障隔离手册、飞机维护手册、系统图解手册、零件目录图解手册、线路施工手册、结构修理手册、维修方案等;运行数据是指飞机产生并记录的机载数据包括音频视频数据、实时传输的ACARS报文数据、落地后采集的QAR数据、可靠性数据等;维修管理数据包括各种维修记录(包括照片、录音、录像)、航材管理、维修计划与控制等;ERP数据包括生产计划、气象资料等。

1.2 民机运行大数据分类

按照数据类型可以将民机运行数据分为以下三大类:

(1)结构化数据。

结构化数据,存储在关系型数据库或面向对象数据库,可以用二维表结构来逻辑表达实现的数据,数据模型通常采用二维表形式,需要先定义数据结构再有数据。比如,Oracle、MSSQL数据库里存储的数据都属于结构化数据。民机运行数据中结构化数据主要包括ACARS数据、QAR数据等。

(2)非结构化数据。

相对于结构化数据,不适合用二维逻辑关系型数据库存储的数据通常为非结构化数据。通常是先有数据,再有数据结构或数据模型。例如,所有word、pdf格式的文档文本、各类格式的图片、各类报告报表、各类格式的音频/视频数据等都属于非结构化数据类型。民机运行数据中各类维修手册、部分维修记录通常为非结构化数据。

(3)半结构化数据。

半结构化数据,是指介于结构化数据和非结构化的数据之间的数据类型,通常情况下,HTML、XML等格式的文档属于半结构化数据,一般情况下,半结构化的数据,数据的结构和内容,耦合在一起,无法明显的区分开。民机运行数据半结构化数据主要包括可靠性数据、部分维修记录数据等。

2 民机运行大数据采集方式

与民机运行有关的大数据采集,主要类型包括ACARS数据、QAR数据、可靠性数据以及维修手册数据等。采集与存储模式如图1所示。

图1 数据的采集及存储模式示意图

2.1 QAR数据采集

QAR(Quick Access Recorder)即快速存取记录器,是飞机记录系统的一部分,用于记录飞行数据以进行日常应用。QAR连续记录整个飞行阶段的所有飞行数据,包括飞机的高度、速度、加速度、俯仰、倾斜、航向等飞行参数,飞机主要部件,例如发动机的性能参数,以及舱内外的环境参数,例如温度、气流气压、风速等。QAR 数据常被用于飞机日常机务维修、飞行检查、性能监控及飞行品质监控等方面。

飞行参数由飞机的飞行数据采集与管理组件通过ARINC717总线传输至QAR记录下来。传统的QAR需要航线人员人工上机采集,目前航空公司已开始广泛采用无线QAR设备,实现了QAR数据采集、传输、处理、分析整个流程全自动,无须人工干预,如图2所示。

图2 无线QAR数据传输过程示意图

对数据处理的时间要求:非实时,目前对QAR数据的采集要求为不超过三天,具备无线传输的情况下可每天自动传输、自动处理。处理后的QAR数据是保存在Oracle数据库中,对于这种存放在关系型数据库中的结构化数据,可通过Sqoop工具定时抽取到大数据分析平台中。Sqoop工具是apache旗下的一款Hadoop和传统关系数据库服务器之间传送数据的工具。经过Sqoop工具处理,MySQL、SQL server、Oracle等传统关系型数据库中的数据,可方便快捷地导入到Hadoop的HDFS、HBASE、HIVE等数据存储系统中。相对应地,也可通过Sqoop工具将Hadoop的分布式文件系统中的数据导出到传统关系型数据库中。Sqoop工具的原理图如图3所示。

图3 Sqoop工具原理

2.2 ACARS数据采集

ACARS报文通常是结构化数据,是指在飞机在空中通过 ACARS数据链实时传输到地面的报文数据, 在此不讨论 ACARS报文在空地传输过程中的格式转换, 仅讨论终端用户(航空公司)所接收到的 ACARS报文。ACARS报文传输的逻辑架构图如图4所示。

图4 ACARS报文传输的逻辑架构图

航空公司所接收的原始ACARS报文符合ARINC620格式,数据样例如附件文件夹“ACARS报文数据样例”所示。不同机型的ACARS报文不同,不同航空公司的同一类ACARS报文也可能有差异,需要具体分析。航空公司一般有专门的系统对ACARS报文进行解码及应用。目前地面站接收到报文数据解码后可通过专线实时传输到上传到民机运行大数据分析平台上。对于ACARS数据可以当作实时流数据进行处理,采用Flume及Kafka消息网关的方法进行采集。

Flume工具是一个分布式、高可用的海量日志采集、传输、聚合的工具。利用Flume将ACARS数据存储于HDFS、HBase、Hive中,当数据的采集速度超过写入速度时,在数据生产者和数据收容器间进行调整,保证两者之间提供平稳地数据。此外,可以使用Flume的插件,检查Flume的事件数据,监控ACARS数据的采集传输状态。

图5 Flume原理图

Kafka是由LinkedIn开发的,具有高吞吐量特征的分布式发布系统。Kafka是一种快速、可扩展的分布式消息系统,可支持Cloudera、Apache Storm、Spark等多种分布式业务系统的集成。由于项目前期接入的数据量不大,但随着项目进展,会有更多的数据接入平台,因此需要考虑平台的可扩展性。利用Kafka在数据处理过程中插入一个隐含的数据接口层,可以在平台项目扩展时,只需遵守同样的接口约束,可独立扩展生产者和消费者。

图6 Kafka原理图

2.3 可靠性数据及维修手册数据采集

可靠性数据是反映飞机或机队运营可靠性状况的数据,对于可靠性数据,已经导入到系统的关系型数据库中,可通过Sqoop工具从该数据库中定期抽取到大数据分析平台。维修手册主要包括飞机故障隔离手册、飞机维护手册、系统图解手册、零件目录图解手册、线路施工手册、结构修理手册等,通常以文档的形式存放在文件服务器中,对于这些数据我们通过定时拷贝或者集中导入的方式存储在HDFS中。

对于应用系统中的ACARS、QAR等结构化数据,以及维修手册、维修记录等非结构化数据可通过批量采集方式汇集到大数据存储处理系统中。通过配置自动化的数据采集规则,并设置数据拥有者的审核权限,可以对民机运行大数据整个采集过程进行监控跟踪。

3 民机运行大数据分析方法

3.1 大数据分析方法

传统的数据处理分析方法,无法满足目前对大量数据的处理需求,为了充分利用民机运行数据,需要采用大数据的分析方法。“云计算”技术,借助虚拟化等技术,提供动态易扩展的平台环境,为海量数据进行分析提供了很好的技术基础。目前大数据领域每年都会涌现大量的新的技术,成为数据管理、分析、可视化等的有效手段。民机运行大数据分析涵盖了以下五个方面。

(1)数据质量管理。

民机运行大数据平台采集的数据不一定完全是干净有效的数据,需要进行数据质量管理。通过ETL工具对大量数据进行清洗、转换、标准化,是大数据分析的基础。ETL的关键环节是数据转换,主要包括空值处理、数据格式规范化、数据正确性验证、数据替换、主外键约束等多种转换方式。通过数据质量管理标准化流程对数据进行预处理,可以确保民机运行大数据平台获得一个预设定义好的高质量的数据集。

(2)数据挖掘分析。

为了进行民机运行大数据平台的数据分析能力,需要集成数据挖掘分析算法,这些算法具备既能应付大数据的量,同时还具有很高的处理速度的能力。

数据挖掘方法和技术包括归纳学习方法、分类聚类技术、时序数据模式挖掘技术、统计分析方法、模糊数学方法、人工智能、机器学习等等;本文以民机运行数据库为研究对象,构建形成数据挖掘的方法和技术,应用于在航空数据分析中。

在民机运行大数据平台上,选择使用Mahout作为数据挖掘工具。Mahout可提供一些可常规的机器学习领域经典算法,可快速创建民机运行业务应用模型。Mahout包含聚类、分类、推荐、过滤、频繁子项挖掘等多种数据挖掘算法,可对民机运行大数据进行深度分析。此外,通过使用 Apache Hadoop 库,可以将Mahout 可以有效地扩展到云计算平台上,为平台用户提供数据分析云服务。平台支持数据挖掘分析算法的扩展,支持R语言、Python语言等统计分析建模语言的算法集成。

(3)可视化分析。

数据可视化,是用图形化的方式,清晰地展示数据信息,达到高效沟通的效果。不管是对数据分析专家还是普通用户,数据可视化分析可以直观的展示数据,让用户可以直观地看到结果。民机运行大数据分析平台支持可实现在海量数据中快速查询与可视化报表展现。平台可提供趋势图、波特图、极坐标图、频谱图等多种数据展示工具,可方便用户自定义数据报表制定,自动报表输出。

(4)预测性分析。

数据挖掘算法、数据可视化为数据承载的信息更快更好地被消化理解,提供技术支撑,进而提升判断的准确性。而预测性分析可以让数据分析师根据数据可视化分析和数据挖掘的结果做出一些故障预测性的分析。预测性分析主要应用于民机PHM领域,可以借助预测性分析算法,支持民用飞机关键零部件的故障诊断、故障预测分析、设备健康管理,为后续的维修决策提供参考。

3.2 大数据分析工具

3.2.1 离线数据分析工具

离线数据分析工具,通常用于处理时间及时性要求不高数据分析应用,例如离线统计、事后数据分析、反向索引计算等,应采用离线分析的方式。目前针对QAR及维修手册等数据采用离线数据分析的方法进行处理,离线数据采集及分析工具主要包括Scribe, Kafka、Timetunnel、 Chukwa等,均可以满足大量数据采集和数据传输的需求。民机运行大数据分析平台采用Hadoop开源的Chukwa离线数据分析工具进行数据分析。

3.2.2 实时在线数据分析工具

实时在线数据分析工具,是用于处理对时间及时性要求比较高的数据分析,本文针对ACARS数据采用实时在线数据的方式进行处理分析。

常用的实时数据分析工具主要有storm和spark streaming。其中,storm是纯实时地处理数据,系统接收一条数据,就立即处理一条数据,延迟度达到毫秒级,但吞吐量比较低。Spark streaming是准实时地处理数据,对一个时间段的数据收集起来,作为一个RDD,然后处理,延迟度达到秒级,但其吞吐量比较大。延误度秒级的要求可以满足民机运行大数据平台对数据实时性的要求,因此采用spark streaming作为民机运行大数据分析平台的实时数据分析工具,可保障系统的吞吐量。

4 案例分析

通过搭建民机运行大数据分析平台,首先将民机运行相关的数据,包括ARJ的ACARS、QAR数据、可靠性数据等通过采集工具采集到大数据分析平台的分布式数据库中,并可进行数据查询,如图7所示。

图7 民机运行大数据平台数据

通过民机运行大数据分析平台中的数据分析工具,可进行相关业务分析,可提取大数据平台中的相关数据,对不同班次的飞机的油耗分析进行分析展示,从而验证了本文所提出的民机运行大数据全寿命周期处理技术的可行性。

图8 民机运行大数据平台分析任务

图9 燃油消耗分析

5 结论

本文对民机运行数据源进行了梳理,并根据数据类型对各数据源进行分类。本文研究了不同数据类型的采集方案,并对民机运行大数据分析技术进行了研究,总结了离线数据分析工具及实时在线数据分析工具进行。本文的研究成果有助于有效支撑民机运行大数据平台构建,为提高民机运行效率将起到支撑作用。

[1] 张 洁, 秦 威, 鲍劲松. 制造业大数据[M].上海:上海科技出版社,2016.

[2] 叶云斐, 陈晓建, 陈伟青等. 基于云计算的民航协同决策系统基础架构研究[J. 软件产业与工程,2015(4) : 36-41.

[3] 曹 彪, 张 磊, 宋 岩等. 大数据时代航空维修信息应用研究[A]. 航空装备维修技术及应用研讨会[C]. 2015: 22-26.

[4] 王清晨.航空安全数据的收集与应用[EB/OL].民航资源网,2015.

[5] 王 洪, 黄加阳. 民用飞机关联性诊断技术研究[J]. 计算机测量与控制,2015,23(10):3301-3304.

[6] 黄加阳, 刘 昕, 柏文华等. 民用飞机健康状态评估方法[J]. 计算机测量与控制. 2014, 22(10): 3256-3258.

猜你喜欢

民机手册结构化
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
基于Stateflow的民机液压控制逻辑仿真与验证
未来民机座舱显示控制系统初探
民机复合材料的适航鉴定
美食修炼手册
民机研制风险管理浅析
基于图模型的通用半结构化数据检索
基于软信息的结构化转换
School Admission择校