层级数据格式在试飞数据归档中的应用
2021-04-13寇宝智
寇宝智
层级数据格式在试飞数据归档中的应用
寇宝智
(中国飞行试验研究院,陕西 西安 710089)
论述了层级数据格式在试飞数据归档中的适用性探索,介绍了层级数据格式的特点及应用优点。对传统颤振试飞数据规整和基于HDF5归档的数据规整进行结构对比,以某小型民机颤振试飞数据归档为例,介绍了基于HDF5文件的试飞数据规整思路,该方法可为其他试飞科目数据归档提供参考。
层级数据格式;HDF5;颤振试飞数据;数据归档
层级数据格式HDF(Hierarchical Data Format)是用来存储和管理大容量复杂数据的一种数据格式,由抽象数据模型、函数库和文件格式组成,1987年由美国伊利诺伊大学厄巴纳-香槟分校国家超级计算应用中心(NCSA)开发,现在由非盈利社团HDF Group支持,HDF5为最新版本,与之前HDF4在设计和接口上有显著区别。HDF5文件的优秀特性使得其在天文学、物理学、计算流体力学、地球科学、工程、生物医药及金融等领域被广泛成熟应用,很多行业基于该文件格式设计了数据交换存储的标准文件格式,如开放地理空间信息联盟基于HDF5设计了其官方标准[1]。美国早在F-22的航空电子飞行试验中经过多种文件格式对比分析,采用该数据格式进行了数据管理,并评测了该文件格式在实验室模型数据与试飞数据对比及数据应用方面的优势[2]。波音和NCSA合作通过扩展HDF5开发了用于飞行测试数据集中管理及传递的相关数据容器,并进一步挖掘其在试验实时数据分析中的能力[3]。LOCKARD等基于HDF5设计了工程测试数据管理系统[4]。在中国试飞数据管理应用中,安然将HDF5文件格式应用到飞行试验数据管理中,并基于HDF5函数库和Python接口设计了性能专业试飞数据管理的专用文件格式[5]。查晓文等提出试飞数据具有大数据的特点,将HDF5文件格式应用到运输类民机整架机试飞数据管理中,将多类型测试数据进行统一管理调度,测试了HDF5数据存储容量及检索速率的优势[6]。
近年来大数据的迅速发展已经从互联网行业扩展到各工业领域,数据挖掘及机器学习均基于大规模高价值数据实现。大数据是一种在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型以及价值密度四大特征。其中数据的价值密度与数据的规模通常成反比,所以大数据的意义不在于掌握庞大的数据,而在于对这些低价值庞大数据进行专业化处理,通过对数据的清洗、连接、聚合、分组、重塑及规整等各种加工后实现数据增值。工业生产及测试中产生的各类数据,不仅体现在特定应用中的价值,海量数据形成规模价值需要迅速挖掘,其中高价值历史数据的积累是实现规模应用的基础。近年来工程数据整理归档在飞行试验工程中受到极大关注,数据归档成为了规模数据增值的基础需求。本文所述的数据归档类似于传统的文件归档,对原始数据及分析数据进行规范化保存,实现数据存储、检索、审查、交换及二次开发利用。数据的归档整理,使其符合相关专业的应用特征,是实现试飞工程大数据应用及数据挖掘、反哺飞机设计和工程管理的有效途径,这种基于大数据统计的反馈,也是提高试飞效率的有效手段。
1 HDF5的特性及适用性
试飞工程管理中对过程文件及试飞报告有严格的管理规定,归档管理主要目标是文件及影像资料等,数据归档多体现在整架次试飞原始测试数据归档,这种归档是对试飞工作的一种记录与保存。试飞数据是飞机设计定型及适航取证的重要依据,是对飞机设计最直接、最有效的验证。高价值试飞数据一般由试飞分析工程师在编写特定科目试飞报告中对数据进行规整形成,相比原始数据容量要小很多,同时数据结构组织及内容也更加复杂多样,所以基于数据库的高价值试飞数据归档相关应用及方法在近年来也发展迅速。不同的工程专业、试飞科目、试飞工程人员、数据分析软件和数据管理系统与方式等,带来试飞数据规整标准化的困难,使得试飞数据归档也面临复杂的技术及管理问题。
HDF5是用于存储和分发科学数据的一种自我描述、多对象文件格式,可满足不同科学家在不同工程项目领域的需要,可以提供科学数据存储和分布的许多必要条件。其设计具有灵活性、自述性、高性能和跨平台等特性,这些特性使得该文件格式适用于试飞数据归档,在复杂的试飞工程数据管理中具有极大优势。
灵活性体现在HDF5的层次结构、丰富数据类型和方便交互分享方面。HDF5主要包含数据集和组群两种对象类型,数据集一般包含各种类型的多维数组,组是持有数据集和其他组的容器结构,这就产生了层级、类似文件系统的数据格式,允许用户把各种数据对象组合在一起放到层级结构中,便于规整管理数据。通过使用合适的HDF5数据结构,符号、数字和图形数据等许多数据类型可以同时存储在一个HDF文件里,如可以将重要试验现场图片及数据图表与原始测试数据集中到一个统一数据文档中管理。HDF5文件不会被任何其他厂商平台锁定,单个文件可以便携拷贝到需要的各种计算平台中使用。
自述性使一个HDF5文件里的每一个数据对象,都可以定义关于该数据的综合信息,即元数据。在没有任何外部信息的情况下,允许应用程序解释文件的结构和内容。其自描述特性使得一个基于HDF5标准化后的试飞数据档案,在没有其他说明文件的情况下不会影响工程人员对数据的解读与调用。
优异性能使基于HDF5的数据管理,占用存储空间少且数据存取处理速度高。随着机载测试技术的迅速发展,测试数据种类和单架次测试数据规模急剧增加,同时试飞验证要求增多与计算机分析技术的发展,也带来分析计算数据规模的增加。这种优秀的空间及速度性能满足大容量数据及高速存取接口的分析需求,也为试飞数据的实时分析与管理提供了基础。
HDF5专门为大规模科学数据交互设计,具有丰富接口,HDF5可在个人电脑以及大型并行计算机等广泛的计算平台上构建独立软件库,支持广泛的操作系统,且受大量商业及非商业软件和编程平台支持,如C/C++、Java、Python、R、Fortran、Julia、Matlab、Octave等,常见工程数据分析平台基本都对其提供较好支持。所以HDF5具有与平台和架构无关且兼容性强的特点,适用于匹配现有数据分析系统和数 据库。
跨平台、可扩展、层级结构和自描述的HDF5文件可实现关联控制,在试飞数据规整中满足标准化要求,其便捷性及高性能满足试飞数据归档需求。
2 试飞数据的规整
飞行试验会按照规划好的各科目试飞大纲及实施方案组织进行,试飞分析工程师一般会依据各架次规划的试飞状态点提取需要的有效试飞数据,通常是整架次数据中某些参数的某些时间段数据。单架次飞行机载数据通过解码和添加校线获得,并按试飞状态需求所提参数及时间段处理后,得到适用于分析的原始数据文本文件。该文本数据文件关联的参数、数据结构、获取的试飞环境、试飞方法和飞机状态等信息,均需要额外的描述文件来记录。这种按照试飞组织规划及数据处理工作流程自然形成的数据规整方式,符合试飞中大部分科目最终报告使用数据档案形成的规律。如颤振试飞科目以试飞架次归类,建立基于平台文件夹和文件的数据规整结构如图1所示。
图1 基于平台文件夹和文件的颤振试飞数据规整结构
科目描述文件主要记录整体科目规划及执行情况,包含各架次完成情况及试飞中遇到的问题、各架次执行时间及部分日志等统计信息;架次描述文件记录架次执行的任务单号、气象、飞机构型、执行的试飞状态点、提取数据段的试飞状态及激励参数表等内容;数据描述文件记录数据组织结构、参数及各数据段对应的飞行状态;飞参数据文件及振动数据文件为依据目标试飞状态选取的、各参数原始数据文件;分析结果文件记录选定试飞状态及激励情况下颤振试飞数据处理结果,一般为分析得到的模态参数及对应试飞状态的统计信息,也有数据分析形成的图表等文件。
这种由描述文件、原始数据文件、分析结果文件和文件夹形成的试飞数据层级规整结构缺乏便捷性且效率较低,难以形成统一标准。数据归档需与试飞报告或专业特点相一致,一般按照规划的试飞状态点结合科目特征进行规整,而所需试飞状态的数据可能存在于多个架次中,单个架次也可能包含多个试飞状态点。通常在整个科目试飞结束后,需要重新整理数据及描述文件,以满足数据归档需求,数据组织方式的改变,往往容易使部分关联数据丢失且耗费精力。
基于HDF5文件格式设计一种结合试飞状态点和专业特点的试飞数据规整方法,通过各元数据关联原始数据重要信息以代替各种描述文件,方便进行标准化及统一部署。基于HDF5设计的颤振试飞数据规整结构如图2所示。由于所有的组和数据集均可定义元数据,把传统的数据描述文件包含的各种参数和定义均放置于对应的组和数据集的元数据中,与数据自动关联,增强数据的可读性。如某一扫频激励形成的振动数据集,其对应的激励舵面、激励时间、频率范围和激励幅值等激励参数可直接放置在该数据集对应的元数据中;各状态点的组元数据存储该状态点所要求的高度、速度等相关参数等。采用HDF5进行数据规整管理,可以通过编程接口,方便调用其中的原始数据。通过将原始数据、数据处理分析结果和重要图片放在一个HDF5文件中归档,不仅记录了原始数据,同时与试飞报告加强了关联,有利于过程记录及验证查询需求。
图2 基于HDF5的颤振试飞数据规整结构
基于HDF5设计的某小型民用飞机颤振试飞归档数据文件如图3所示,该数据文件包含7个试飞状态点、分析结果数据及部分分析结果图片,每个试飞状态点按照激励方式分类存放在原始数据段,其他所有的描述参数均放置在各组或数据集的元数据中。这种数据组织方式便于进行数据查询、检索及调用。
图3 某小型民用飞机颤振试飞的HDF5归档数据文件
指定传感器振动均方根值随速度变化趋势如图4所示。采用该数据格式文件,只需要通过编程接口操作该单一文件,像查询数据库一样,按照数据组织结构检索并结合元数据进行筛选,调取各数据集中符合要求的数据进行统计即可得到结果。如果基于传统模式,需要打开各数据描述文件查找符合条件的数据文件,并打开每个数据文件提取四个加速度传感器数据进行整合统计,最终形成统计结果,虽然文本数据文件中特定传感器数据获取与分析也可以编程实现,但是必须依靠数据描述文件寻找符合条件的文本数据文件,显著降低了效率。同时这种HDF5数据规整结构可以通过接口程序转换为基于飞行时间或其他状态的数据规整结构,方便适配各种后续应用的数据接口。
图4 指定传感器振动均方根值随速度变化趋势
以上实例是HDF5在颤振试飞数据归档中的应用,主要数据为采样率256的加速度传感器数据。振动环境试飞的采样率可达到8 000,噪声更高,所需提取的试飞状态也更多,这就极大增加了归档数据的规模。采用HDF5格式的归档数据,可应用其数据压缩功能节省存储空间,同时其高速访问特性有利于分析软件的高效调用。
3 总结
基于HDF5设计实现的数据存档文件,是一个具有层级和自描述特性且便于标准化管理的单一文件,适用于查档、规模数据积累及数据挖掘等。这种层级数据结构在试飞数据归档及实现数据规模应用价值中值得采用和持续开发,有利于高价值试飞数据的传承及再利用。
建议以层级数据格式的试飞数据归档为基础,形成相关专业的试飞数据库,进一步开发后端及数据分析挖掘算法及工具,实现大数据在试飞工程中的更广泛应用。
[1]OGC采用、公布第5版层次型数据格式核心标准[J].测绘标准化,2020,36(4):16.
[2]BARNUM J.The use of hdf in f-22 avionics test and evaluation[C]//International telemetering conference proceedings,1996.
[3]WEGENER J A,DAVIS R L.Extension of a common data format for real-time applications[C]//International telemetering conference proceedings international foundation for telemetering,2004.
[4]LOCKARD M T,RAJAGOPALAN R,ARLING J A.Mining irig-106 chapter 10 and hdf-5 data[C]// International telemetering conference proceedings,2006.
[5]安然.HDF5文件格式在飞行试验数据管理中的应用 [J].中国科技信息,2013(12):90-91.
[6]查晓文,王加熙,李成浩.基于HDF5的试飞数据格式研究[C]//2019航空装备服务保障与维修技术论坛暨中国航空工业技术装备工程协会年会,2019.
2095-6835(2021)06-0158-03
V217
A
10.15913/j.cnki.kjycx.2021.06.065
寇宝智(1989—),男,硕士,工程师,研究方向为飞行器颤振试飞。
〔编辑:严丽琴〕