APP下载

空间科学卫星数据快速处理方法

2018-08-23孙小涓杨晓艳胡玉新

计算机工程与科学 2018年8期
关键词:暗物质数据量数据处理

孙小涓,石 涛,李 冰 ,杨晓艳 ,雷 斌,胡玉新

(1.中国科学院大学,北京 100049;2.中国科学院电子学研究所,北京 100190; 3.中国科学院空间信息处理与应用技术重点实验室,北京 100190)

1 引言

21世纪以来,空间科学与技术的发展日新月异,人类探索宇宙的步伐越来越频繁,人类活动向太空的延伸也越来越深远,空间科学在我国国家战略发展中的地位与作用日益凸显。空间科学是以空间飞行器为主要平台,研究发生在日地空间、行星际空间乃至整个宇宙空间的物理、天文、化学以及生命科学等自然现象及其规律的科学。近年来,国际空间探索活动蓬勃发展,竞争日趋激烈,美、欧、俄、日、印等主要国家均有各自的空间科学发展战略与任务计划[1]。2011年中国科学院空间科学先导专项立项[2,3],截至2017年已先后发射了暗物质粒子探测卫星、实践十号卫星、量子科学实验卫星、硬X射线调制望远镜卫星4颗空间科学系列卫星,取得了量子卫星通过卫星分发量子纠缠实验结果、硬X卫星监测到对引力波闪在高能区的辐射性质测量结果、暗物质卫星直接测量到电子宇宙射线能谱在1 TeV处的拐折等重大科学成果。空间科学卫星探测具有全天候、数据量大、数据离散等特点。全天候是指在全天时间内,卫星载荷都处于工作状态,时刻对目标进行探测。由于载荷类型多样和探测时间长,使得探测数据总量巨大。空间科学卫星探测数据生成频率高,采用国际上公认的CCSDS(Consultative Committee for Space Data Systems)[4]标准格式,以单条探测数据计数,探测数据计数重复频繁。因此,空间信息处理难度增加,研究空间科学大数据处理方法很有必要。

目前,基于CCSDS分包遥测标准的下行数据流处理方法在遥测遥控方面应用比较成熟[5 - 7],作为一种国际通用标准,因具有空间探测任务的国际合作交互支持和地面系统通用化的优点,空间科学系列卫星下传数据采用这种数据传输格式。然而,由于空间科学卫星载荷探测数据生成频率高,导致数据包计数重复频繁,而且空间科学数据产品的分级定义要求数据处理结果的多样性,以适应科学家团队对工程数据、科学数据的需求,传统的处理方法在正确性和时效性方面无法满足当前地面系统的数据处理要求。

本文剖析了空间科学卫星探测数据特点,在此基础上,结合科学数据产品处理需求,提出了空间科学卫星数据快速处理的方法。采用两层联合索引结构,将大数据处理问题转化成数据量较少的索引和对应源包处理,提高了数据处理效率;采用科学工作流技术设计了数据驱动和业务驱动协同的处理框架,支持多样化的空间科学卫星数据处理流程,各类载荷数据处理任务并行调度。这种方法处理效率可扩展,内存使用较少,应用于空间科学卫星地面系统中,满足了空间科学卫星任务对数据处理的要求。

2 空间科学卫星数据特点分析

2.1 空间科学卫星数据结构

空间科学数据有科学数据、载荷工程数据和卫星平台数据三大类,使用应用过程标识符APID(APplication IDentifier)对卫星数据采集和传输过程中的不同数据源设备进行区分,构成可变长度的面向应用的数据包,称为“源包”。过长的包再分成段,截成定长后加上帧头和帧尾构成数据传输帧进行传输。针对工程参数区回放数据、科学数据区回放数据和实时工程参数数据等,数据传输帧划分不同虚拟信道,使用虚拟信道标识符VCID(Virtual Channel IDentifier)进行区分。空间科学卫星数据采用CCSDS标准,按虚拟信道标识符和应用过程标识符实时分路不同数据,实现了同一物理信道上时分复用传送多种数据的要求。因此,空间科学卫星数据具有传输帧和源包两层数据结构,从一个或多个传输帧的数据域中获得源包数据,数据传输帧具有VCID、VCID计数、回放标志等字段,源包具有APID、APID计数、包长等字段。

从空间科学卫星数据生成科学数据产品的数据流图如图1所示。数据处理系统接收到卫星原始数据文件,对一次卫星过站的数传原始数据进行帧同步、虚拟信道分离、源包提取、验证排序,生成按APID拆分的1A级源包数据产品。对多次卫星过站的数传原始数据进行相同处理,按APID拆分、拼接、去重后,生成按工况或按日期进行数据分割的1B级源包数据产品。然后,分别在1A级产品和1B级产品的基础上,对科学数据源包、工程数据源包进行解包,经过循环冗余CRC(Cyclic Redundancy Check)校验、物理量转换或图像视频格式转换后,生成1C级、1D级科学数据产品和工程数据产品。在1B级产品的基础上,通过快速标定或数值类、图像视频类处理,生成1Q级快视数据产品。所有科学数据产品分发至科学家团队,进行科学事件和实验数据的深入分析。

Figure 1 Data flow of space science data processing图1 空间科学数据处理的数据流图

2.2 空间科学卫星数据特点和处理难点

(1)探测数据生成频率高。

空间科学卫星是全天候探测,不同于遥感卫星的定点开机观测,虽然单条探测数据最多几百KB,但探测频率较高,以暗物质卫星遥测源包为例,源包生成频率最快1 s,最慢32 s。

空间科学卫星数据源包采用14位连续二进制数进行计数,每隔16 384源包计数循环一次。单轨数据中往往存在源包计数溢出导致计数循环的情况,传统的采用计数进行源包排重和拼接难以实现。

(2)探测数据种类多且计算量大。

空间科学卫星依据科学目标搭载不同的科学探测载荷。暗物质卫星搭载了塑闪阵列探测器、硅阵列探测器、锗酸铋BGO量能器、中子探测器共4个探测器,包括4个虚拟信道,总计14种数据源包。实践十号卫星开展微重力科学实验项目10项,空间生命科学实验项目9项,全部19个载荷探测数据有5个虚拟信道,总计48种数据源包。硬X射线望远镜卫星具有主探测器18个单元,粒子探测器3个单元,在轨标定探测器3个单元,顶面反符合屏蔽探测器6个单元,侧面反符合屏蔽探测器12个单元,总共42个探测单元。探测数据包括13个虚拟信道,总计36种数据源包,平均源包长度为400字节。

暗物质、实践十号和硬X卫星探测数据量较大,平均单轨原始数据量分别为6 GB、10 GB、10 GB。对每个卫星下传原始数据文件进行分析,都需要进行虚拟信道分离、提取源包的处理过程,解析后数据单元数量巨大。而解析工程源包数据的过程,需要根据每个工程参数解算方法进行物理量转换;生成图像视频类快视产品的过程,需要进行格式转换,针对海量数据单元的计算量也较大。

(3)空间科学数据处理算法多样。

空间科学数据处理的目标是按产品分级定义和产品格式说明的约定,生成全部在轨卫星数据产品。除解帧解包的共性算法外,每种卫星数据产品具有不同的处理算法。空间科学数据1A、1B级产品类型与数据源包类型对应,1C、1D级产品类型则与具体卫星载荷的工程数据和科学数据类型相关,1Q级产品类型与各卫星数据的科学意义有关。以载荷类型最多的实践十号卫星为例,1C、1D级数据产品多达46种,1Q级快视数据产品多达47种。

从算法模块调度模式上,空间科学数据处理分为原始数据接收后触发、定时触发和人工触发三种模式,分别满足单轨原始数据处理、多轨联合处理和历史数据处理的要求。

3 空间科学卫星数据处理方法

3.1 数据与业务协同驱动的系统框架

针对空间科学数据处理算法多样的特点,为了支持众多卫星数据处理流程和处理算法软件,我们设计了数据与业务协同驱动的处理框架,如图2所示。数据驱动层进行从原始数据到源包数据的预处理,生成的索引表和源包数据单元作为业务处理的输入。业务驱动层进行各卫星不同模式数据处理流程的驱动,由数据驱动层在数据预处理后创建的流程和由人工或系统定时自动创建的流程都由该层驱动。作业执行层基于PBS(Portable Batch System)作业调度系统[8]实现所有业务流程在数据处理集群上的并行调度执行。同类计算节点部署相同的处理算法程序,由管理节点根据计算节点负载情况协调计算任务。

Figure 2 Framework of space science data processing 图2 空间科学数据处理框架

空间科学卫星数据处理系统在已有的空间信息处理平台[9 - 11]的基础上,主要探索了基于联合索引的空间科学卫星数据驱动机制,实现了针对源包数据的任务管理。平台采用科学工作流技术,设计实现了数据参数准备、任务并行语义表达、任务规划与资源映射、任务提交、远程数据传输、任务跟踪记录、运行时容错等功能,可快速适应新增卫星和新增数据处理软件业务扩展。

采用这种系统框架设计的空间科学卫星数据处理系统能够统一管理调度众多处理算法,实现不同卫星不同类型探测数据的并行处理,后续发射卫星的数据处理业务也易于扩展。

3.2 数据联合索引建立方法

针对空间科学卫星探测数据种类多、数据条目巨大的特点,根据卫星数据由虚拟信道传输帧和源包两级结构组成,我们设计了基于信道索引和源包索引联合的数据处理方法。这种索引结构不仅包含传输帧的VCID、VCID计数和源包的APID、APID计数、包长等基本信息,还将回放标志、时间码、文件偏移位置信息纳入索引管理,数据处理所需的信息包含在索引结构中,能够完全解决回放直传模式区分、计数重复、计数跳变、时间码错误等多种数据处理问题,同时有效地降低内存使用。

构建联合索引成为数据处理过程的关键。如图3所示,首先在数传原始数据文件解析与校验、AOS(Advanced Orbiting Systems)帧数据校验后,进行虚拟信道的抽取与分离,插入信道索引表所需信息,生成信道文件;然后对虚拟信道数据连续性进行校验,在校验正确的情况下从每个信道文件中提取源包并校验,信息解析后插入源包索引表。

采用联合索引方法可以解决空间科学卫星数据的如下处理问题:联合索引与数据字段一一对应,对数据的处理转化成了对索引的操作,因索引数据集小可在内存中处理,所以采用这种方法减少了内外存数据交换,降低了系统开销;由于直传和回放模式数据在虚拟信道数据中混合传输,单纯从传输帧头标志无法判别,通过在源包索引中识别相邻源包的大幅计数跳变,从而能够区分对应模式探测数据;因单轨数据中常出现源包计数循环导致重复的问题,依据源包索引的时间码信息,在计数循环时能有效实现源包排重和拼接,而传统方法在有循环情况下无法排序。

综上,采用联合索引方法不仅能够解决由于空间科学卫星数据生成速度快导致的源包排重和拼接难题,还能够避免对原始数据中不同探测数据种类的多次解析,从而提高系统处理效率。

Figure 3 Joint index structure for space science satellite data图3 空间科学卫星数据联合索引结构

4 实验结果与性能分析

4.1 方法与评价

在测试验证环境中对源包提取处理阶段、源包排重拼接处理阶段的处理时间和内存使用量指标进行测试分析。实验使用1台服务器(2个Intel Xeon E5649 CPU,主频2.53 GHz,16 GB内存)对数据处理方法进行了测试验证。测试数据选用模拟卫星数据,帧长为512 B,源包长度为100 B。测试方法及结果如下:

(1)源包提取处理。

使用本文的联合索引处理方法和传统处理方法对计数无循环、有循环的1 GB数据进行源包提取,不进行后续处理,记录两种方法的处理时间,比对源包提取结果,测试结果(如表1所示)表明本文方法能够正确实现卫星数据计数有循环和无循环情况下的源包提取,同时索引构建没有显著增加处理时间。

Table 1 Processing time of source packet extraction

(2)源包排序处理。

使用本文的处理方法对不同大小的数据进行源包提取、源包排序排重处理,记录处理时间、最大内存使用量等性能指标。测试数据大小分别选取500 MB、1 GB、2 GB、5 GB、10 GB。测试结果如表2所示,性能拟合曲线如图4所示,其中图4a表示处理时间与数据量的关系,图4b表示占用内存与数据量的关系。测试结果表明,源包排序处理时间随着数据量增长而增加,随着数据量的增长,源包排序、排重所占用的时间增加,呈现接近线性的可扩展性。由于采用索引进行排序排重等处理,索引本身占用内存不大,所以程序占用内存随着数据量增加变化不大。

Table 2 Experimental results of processing timeand memory usage of source packet sorting

Figure 4 Scalability for processing time and memory usage of source packet sorting图4 源包排序处理时间与内存使用量的扩展性

4.2 实测结果

在实际运行系统环境中测试暗物质卫星、量子卫星和硬X卫星各级产品生成处理时间,测试结果如表3所示。实测环境使用12个节点组成的服务器集群,每个节点配置4个主频2 GHz的Intel Xeon E7-4820v2 CPU,64 GB内存。测试数据为单轨卫星真实数据,各卫星数据产品处理时间均符合工程任务指标要求,其中针对数据量较大的暗物质卫星和硬X卫星的1A、1B级产品处理总时间,约为指标要求的2/3和1/2。

5 结束语

本文提出的空间数据处理方法已应用于空间科学先导专项地面系统各卫星数据处理业务中,目前有暗物质、实践十号、量子和硬X四颗卫星,实际应用结果表明,产品处理延迟时间远低于卫星工程指标要求。

本文通过分析空间科学卫星数据特点,提出了适合空间大数据的快速处理方法,通过构建两层联合索引结构实现数据单元准备,然后通过作业调度系统完成各类探测数据处理任务的并行执行。该方法解决了工作模式区分、计数循环重复的数据问题,能够支持众多数据处理软件的并发调度,便于根据卫星载荷特点进行处理软件扩展。另外,该方法在基于空间科学大数据的数据管理、数据存储、科学档案制作、计算可视化等研究方面,也具有借鉴意义。

该方法应用于实际系统中取得了较好效果,但空间信息处理技术需要在应用中不断积累和完善,目前迫切需要在空间科学卫星数据挖掘方面作深入研究和探索。空间科学卫星探测数据量大,但具有科学研究价值的探测数据占比不高。根据数据统计结果,暗物质卫星稳定运行一年后,成功覆盖天区两次,全部探测的有效粒子达18亿个,卫星平均每天传送500万个粒子信息,但是其中只有0.1%是有用的电子,光子的数量还要少很多。因此,如何在众多探测事例中实现科学目标的快速识别,研究适合的数据挖掘算法辅助科学家团队更容易获取科学发现,将可能成为本领域未来的研究方向和热点。

Table3Processingtimeofspacesciencesatellites

表3空间科学卫星数据处理时间结果

卫星名称数据量/(GB)各级产品生成处理时间/生成产品数量1A1B1C1D1Q暗物质4.61 min/14个5 min 40 s/14个6 min 17 s/4个58 s/4个1 h 48 min/7个量子0.1315 s/6个30s/8个7 min 46 s/10个--硬X9.85 min 40 s/36个4 min 43 s/118个17 s/29个-1 h 2 min 51 s/113个

猜你喜欢

暗物质数据量数据处理
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
基于低频功率数据处理的负荷分解方法
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
基于大数据量的初至层析成像算法优化
高刷新率不容易显示器需求与接口标准带宽
暗能量VS暗物质(下)
宽带信号采集与大数据量传输系统设计与研究
什么是暗物质
什么是暗物质
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用